Новият AI модел на Meta идва, „знаещ“ над 4000 говорими езика
Meta представи езиков модел с изкуствен интелект, който е наистина глътка свеж въздух на това поле, тъй като не е клонинг на ChatGPT, каквито са голяма част от придобилите през последните шест месеца известност платформи.
Проектът на компанията Massively Multilingual Speech (MMS), посочва Engadget, може да разпознава над 4000 говорими езика и да превръща текст в реч (text-to-speech) на над 1100.
Подобно на повечето от другите си публично обявени проекти за изкуствен интелект, Meta предоставя отворен ресурс за MMS, „за да помогне за запазването на езиковото разнообразие и да насърчи изследователите да надграждат върху неговата основа“.
"Днес споделяме публично нашите модели и код, за да могат и други представители на изследователската общност да надграждат нашата работа", пише компанията. "Чрез тази работа се надяваме да дадем малък принос за запазване на невероятното езиково разнообразие в света."
Моделите за разпознаване на реч и превръщане на текст в реч обикновено изискват обучение върху хиляди часове аудиозаписи с придружаващи ги етикети за транскрипция, които са от решаващо значение за машинното обучение, тъй като позволяват на алгоритмите да категоризират правилно и да "разбират" данните. Но за езиците, които не се използват широко в индустриализираните страни (много от тях са застрашени от изчезване през следващите десетилетия), посочват от Meta, "тези данни просто не съществуват“.
Затова и компанията използва нетрадиционен подход за събиране на аудио данни – чрез записи на преведени религиозни текстове. "Обърнахме се към религиозни текстове като Библията, които са преведени на много различни езици и чиито преводи са широко проучвани за изследване на езиковия превод на базата на текст", казват от компанията. "При тези преводи има публично достъпни аудиозаписи на хора, които четат въпросните текстове на различни езици."
Включвайки немаркираните записи на Библията и други подобни набори от текст, изследователите на Meta успяват да увеличат наличните езици на модела до зашеметяващите над 4000.
И макар този подход на пръв поглед да звучи като рецепта за създаване на модел на изкуствен интелект, силно пристрастен към религиозния мироглед, учените на Meta твърдят, че в случая това не е така, посочва още Engadget.
"Макар че съдържанието на аудиозаписите е религиозно, нашият анализ показва, че това не предразполага модела да възприема по-религиозен изказ", пише в блога на компанията. Освен това, въпреки че повечето от религиозните записи са прочетени от мъже, това не е довело до някакво полово пристрастие.
След като прави данните използваеми, екипът на компанията използва wav2vec 2.0, модел за "самоконтролирано обучение за представяне на речта", който може да се обучава върху немаркирани данни. Комбинирането на неконвенционални източници на данни и модел за анализ на речта води до впечатляващи резултати.
"Резултатите ни показват, че нашите модели се представят добре в сравнение със съществуващите си конкуренти, а покриват 10 пъти повече езици“, акцентират от Meta и правят сравнение на MMS с модела Whisper на OpenAI, който също надмина очакванията:
"Установихме, че моделите, обучени върху данните на Massively Multilingual Speech, постигат наполовина по-нисък процент на грешки в думите, а покриват 11 пъти повече езици."
Разбира се, Meta не забравят да предупредят, че новата платформа не е съвършена. "Съществува известен риск моделът за преобразуване на реч в текст да транскрибира погрешно избрани думи или фрази", пише компанията. "В зависимост от изходния материал това може да доведе до обиден и/или неточен текст. Продължаваме да вярваме, че сътрудничеството в общността на изкуствения интелект е от решаващо значение за отговорното развитие на технологиите."
Сега, след като пусна MMS с отворен код, Meta се надява, че може да обърне тенденцията технологията на големите езикови модели да бъде концентрирана в около 100 основно използвани езика, посочва в заключение Engadget и цитира екипа на платформата:
"Предвиждаме свят, в който технологиите имат обратен ефект, като насърчават хората да поддържат своите езици живи, тъй като имат достъп до информация и използват технологии, говорейки на тях."
New work! The Massively Multilingual Speech (MMS) project scales speech technology to 1,100-4,000 languages using self-supervised learning with wav2vec 2.0.
— Michael Auli (@MichaelAuli) May 22, 2023
Paper: https://t.co/C4Uhk4Q4m5
Blog: https://t.co/XXBQFcj086
Code/models: https://t.co/6mOhKPXy1X pic.twitter.com/cBAD1Z8kB8