От Бърт Рейнолдс до Джуди Гарланд: AI стартъп изкупува златните гласове на Холивуд
Приложение с изкуствен интелект клонира гласовете им за съдържание на различни формати като аудио книги
Звезди от златната ера на Холивуд изгряват отново на небосклона на славата чрез сделки за клониране на гласове на знаменитости с изкуствен интелект.
ElevenLabs, стартъп в областта на аудиотехнологиите, финансиран от компании за рисков капитал, включително Andreessen Horowitz и Sequoia, е сключил множество сделки с представителства на легендарни актьори за своя инструмент IconicVoices.
Той позволява на потребителите да използват гласове, генерирани от изкуствен интелект, при слушането на аудиокниги. Сред тях са Бърт Рейнолдс, Джуди Гарланд, Джеймс Дийн и сър Лорънс Оливие, съобщава CNBC.
ElevenLabs, която стартира през 2023 г., създава аудио за книги и новинарски статии, герои за видеоигри, филмова предпродукция, социални медии и реклама. Компанията вече работи с издатели, сред които New York Times и Washington Post, а по-рано тази година беше избрана да се присъедини към акселераторската програма на Disney.
"Необходими са около 30 минути висококачествен аудиозапис, за да се създаде професионален клонинг на глас", обяснява Сам Склар, член на екипа за растеж на ElevenLabs, а гласовете се генерират от каталога на известни личности.
Веднъж създаден, той може да бъде извикан да чете текст (статии, PDF файлове, електронни книги, бюлетини или друго текстово съдържание). Въпреки това гласът и съдържанието не могат да бъдат експортирани, като цялото слушане е в приложение за четене.
Потребителят може например да има статии, разказани от Джеймс Дийн в рамките на приложението, но няма достъп до гласовете за всяко съдържание, извън приложението.
Този вид сделки могат да помогнат за определяне на бъдещето, в което генерираното от изкуствен интелект гласово съдържание е по-малко спорно и по-контролирано.
Google Play и Apple Books вече използват до известна степен гласове, генерирани от изкуствен интелект, въпреки че пресъздаването на темпото, интонацията и емоциите на човешкия глас е свързано с големи трудности.
Индустрията на изкуствения интелект е измъчвана от опасения относно използването на гласове на известни личности, като OpenAI направи обратен завой през май, след като актрисата Скарлет Йохансон обвини компанията, че е използвала гласа ѝ, след като по-рано е отхвърлила предложенията за лицензиране.
"Ние сме наясно с рисковете, свързани със синтетичните медии, и се отнасяме изключително сериозно към безопасното използване на нашите инструменти", допълва Склар.
Защитните мерки включват активно модериране на съдържанието, отчетност, приложима със забрани, и специални разпоредби за опазване на въздействието на гласа на изкуствения интелект върху изборите през 2024 г.
Сред сегашното поколение актьори продължава да има тревога около използването на AI за генериране на гласово съдържание. Гласовите актьори за видеоигри изразяват загриженост, а миналогодишната стачка в киното и телевизията също се корени в тревогите относно AI.
ElevenLabs посочва начина, по който нейният инструмент IconicVoices получава разрешения и контролира използването на гласовете.
"Даването на разрешение за използване на гласа е една от основите. Ключовите фактори са разрешение, компенсация и контрол.", обясняват от компанията.
Новите, по-ясни закони също могат да бъдат възпиращ фактор за хората, които се изкушават да си присвоят неправомерно нечий глас.
Въпросът колко реалистично звучат клонираните гласове също е в процес на развитие.
Много експерти казват, че тъй като изкуственият интелект не "знае" какво казва, качеството на изпълнението е ограничено. Склар казва, че последното ниво на качество на речта на ElevenLabs е неразличимо от истинската човешка реч.
"Инструментите за преобразуване на текст в реч от ElevenLabs могат да разбират контекста на думите", отбелязва той.
Изкуственият интелект е толкова добър, колкото са добри моделите, по които се обучава, и затова наборите от данни за гласа на актьорите стават част от процеса.
"Невронните модели извличат своите възможности от имитирането/запомнянето на нюанси и модели, присъстващи в техните данни за обучение", обяснява Науман Даулатабад, докторант в Лабораторията по компютърни науки и изкуствен интелект на Масачузетския технологичен институт (MIT) с обширни изследвания в областта на генерирането на глас с изкуствен интелект.
"Качеството и разнообразието на данните за обучение оказват значително влияние върху ефективността на модела."
Гласът на филмовите звезди може да допринесе за имитацията и обучението на изкуствения интелект, като предостави "висококачествени набори от данни за глас за обучение и фина настройка на големи модели", които според Даулатабад са от съществено значение за процеса.
Но той има своите резерви относно това, че "звученето като човек" е правилният тест за областта на гласовете на изкуствения интелект, тъй като това може да засили антагонистичните отношения между човешките и синтетичните гласове.
Гласовите актьори са разделени относно технологията, като някои отказват каквито и да било сделки, но други смятат, че не могат да бъдат пренебрегнати възможностите за клониране на гласовете за по-бързо и по-евтино производство на аудиокниги.
"Технологията с изкуствен интелект може да помогне на работните процеси. Това не е нов инструмент за гласовите таланти, продуцентите и издателите, много от които го използват, за да подобрят качествения си контрол в постпродукцията", заяви пред CNBC миналата година Мишел Коб, изпълнителен директор на Асоциацията на аудио издателите.
Последните генеративни модели показват значителен напредък в сравнение с по-ранните итерации, което прави все по-трудно разграничаването на фалшиви и автентични гласове само по слух, според Даулатабад.
Той допълва, че лицензирането на AI гласове може да облекчи натоварването на гласовите актьори, без да ги измести, тъй като те "се намесват в процеса, като се фокусират върху предлагане на корекция или подобрение на неизразими аспекти като интонация, топлота и ударение, които все още са предизвикателства".