Нов AI на Microsoft се нуждае от 3 секунди, за да „открадне“ гласа ни
Изследователи от Microsoft обявиха, че са създали нов модел на изкуствен интелект за преобразуване на текст в реч, наречен VALL-E, който може да симулира точно гласа на човек единствено на база на трисекунден аудиозапис.
След като анализира конкретен глас, VALL-E може да синтезира аудиозапис на неговия притежател, който казва каквото и да било - и то по начин, съобразен с емоционалния тон на говорещия, съобщава АrsTechnica.
Създателите му предполагат, че VALL-E може да се използва за висококачествени приложения за преобразуване на текст в реч, редактиране на реч, при което записът може да бъде променен от текстова транскрипция, добавяйки изказвания, които човекът не е направил първоначално, както и за създаване на аудиосъдържание, когато се комбинира с други генеративни AI модели като GPT-3.
Microsoft нарича VALL-E "езиков модел с невронен кодек". Той е базиран на технология, наречена EnCodec, която Meta представи през октомври 2022 г. За разлика от други методи за преобразуване на текст в реч, които обикновено синтезират речта чрез манипулиране на вълнови форми, VALL-E генерира дискретни кодове на аудиокодеците от текст и гласови подсказки. Той анализира как звучи даден човек, EnCodec разделя тази информация на дискретни компоненти (наречени "токени"), след което платформата изчислява как би звучал този глас, ако произнася фрази извън трисекундната извадка.
Microsoft обучава VALL-E за синтез на реч чрез аудио библиотека, събрана от Meta, наречена LibriLight. Тя съдържа 60 000 часа английска реч от повече от 7 000 човека, извлечени предимно от аудиокниги и изказвания в публичното пространство. За да може VALL-E да генерира добър резултат, гласът в трисекундната извадка все още трябва да съответства точно на някой от тези в обучителия набор от данни.
В допълнение към запазването на тембъра на гласа и емоционалния тон на говорещия, VALL-E може да имитира и "акустичната среда" на аудиообразеца. Например, ако извадката е от телефонен разговор, изкуственият интелект ще имитира акустичните и честотните свойства на тази среда.
Не на последно място, VALL-E може да генерира вариации в тона на гласа.
Изброените възможности ясно показват, че VALL-E потенциално би могъл да се използва за злонамерена дейност, измами и създаване на дийпфейк материали. Затова и Microsoft не предоставя изходния код на VALL-E за експериментиране от други потребители.
"Тъй като VALL-E би могъл да синтезира реч, която поддържа идентичността на говорещия, той може да носи потенциални рискове при злоупотреба като, например, подправяне на гласова идентификация или злоупотреба със самия говорещ. За да се намалят такива рискове, е възможно да се изгради модел, който да различава дали даден аудиоклип е синтезиран от VALL-E. При по-нататъшното разработване на моделите ще приложим на практика и принципите на Microsoft за изкуствен интелект“, категорични са от технологичния гигант.