Редки европейски езици са част от новата услуга за AI превод на Meta
Според изчисленията на Meta, когато технологията бъде напълно внедрена, всеки ден в News Feed на Facebook, Instagram и други платформи ще има над 25 милиарда превода
Потребителите на Facebook и Instagram скоро ще започнат да виждат все повече публикации на 200 слабо говорени езика по света.
Това става ясно, след като проектът No Language Left Behind (NLLB) на Meta обяви, че е увеличил мащаба на своята оригинална технология, пише Euronews. Проектът включва дузина европейски езици с "ниски ресурси", като шотландски галски, галисийски, ирландски, босненски, исландски и уелски.
Според експерти, за да подобри услугата, Meta трябва да се консултира с хора, за които езикът е майчин, както и езикови специалисти, тъй като инструментът все още се нуждае от доработка.
Как функционира проектът
Meta обучава своя изкуствен интелект с данни от хранилището Opus - платформа с отворен код с колекция от автентични текстове на реч или писане за езици, които могат да се програмират за машинно обучение.
Участниците в набора от данни са експерти в областта на обработката на естествен език (NLP): подмножество на изследванията на AI, което прави компютрите способни да превеждат и разбират човешкия език.
Meta допълни, че в своите бази данни използва и комбинация от извлечени данни от източници като Wikipedia. Данните създават това, което Meta нарича многоезичен езиков модел (MLM), при който AI може да превежда без да разчита на данни от английски език.
Екипите оценяват качеството на преводите с помощта на създаден от тях модел, който също е с отворен код. Той включва списък с "токсични" думи или фрази, които хората могат да научат софтуера да филтрира при превод на текст.
Според последния им документ екипът е подобрил точността на преводите с 44% спрямо първия си модел, който беше пуснат през 2020 г.
Според изчисленията на Meta, когато технологията бъде напълно внедрена, всеки ден в News Feed на Facebook, Instagram и други платформи ще има над 25 милиарда превода.
"Говорете с хората"
Уилям Ламб, професор по келтска етнология и лингвистика в Единбургския университет, е експерт по шотландски келтски език - един от езиците с ниски ресурси, идентифицирани от Meta в нейния проект NLLB.
Около 2,5 % от населението на Шотландия, приблизително 130 000 души, са заявили, че имат умения по келтския език от XIII век. Около 2000 души, говорещи галски, има и в Източна Канада, където той е малцинствен език. ЮНЕСКО го класифицира като "застрашен" от изчезване предвид колко малко хора го говорят редовно.
Ламб обаче отбелязва, че преводите на Meta на шотландски галски език "все още не са много добри". "Това, което трябва да направят, ако наистина искат да подобрят превода, е да разговарят с хората, носителите на галския език.", съветва той.
Това е по-лесно да се каже, отколкото да се направи. Повечето хора, за които този език е като майчин, са на около 70 години и не използват компютри, а младите "използват галския не по начина, по който го правят техните баби и дядовци", допълва професорът.
Добър вариант би било Meta да сключи лицензионно споразумение с BBC, която работи за запазването на езика, като създава висококачествено онлайн съдържание на него.
"Това трябва да се прави от специалисти"
Алберто Бугарин-Диз, професор по изкуствен интелект в университета в Сантяго де Компостела, Испания, смята, че лингвисти като Ламб трябва да работят с големите технологични компании, за да усъвършенстват наличните данни. "Това трябва да се прави от специалисти, които могат да ревизират текстовете, да ги коригират и да ги актуализират с метаданни, да използваме", казва той.
"Хората от хуманитарните науки и от техническата сфера като инженерите трябва да работят заедно, това е истинска необходимост."
Използването на Уикипедия има предимство за Meta, защото данните ще отразяват "почти всеки аспект на човешкия живот", което означава, че качеството на езика може да бъде много по-добро, отколкото при използването само на по-официални текстове.
Но Бугарин-Диз предлага Meta и други компании за изкуствен интелект да отделят време за търсене на качествени данни онлайн и след това да преминат през законовите изисквания, необходими за използването им, без да нарушават законите за интелектуална собственост.
Междувременно Ламб не препоръчва използването на инструмента поради грешки в данните. "Не бих казал, че преводаческите им способности са на нивото, на което инструментите са действително полезни", казва той.
Бугарин-Диз е на различна позиция. Според него, ако никой не използва преводите на Meta, от компанията "няма да са склонни" да инвестират време и ресурси в подобряването им. Подобно на други инструменти за изкуствен интелект, става въпрос на познаване на слабите страни на технологията, преди да бъде масово използвана.