Може ли AI да спаси редките езици?
Проектът No Language Left Behind на Meta си е поставил за цел именно това, но за момента с променлив успех
Скоро ще е по-лесно да виждате публикации във Facebook и Instagram на 200 по-слабо разпространени езика по света. Това стана ясно, след като проектът No Language Left Behind (NLLB) на Meta обяви, че е увеличил мащаба на основната AI технология на компанията за социални медии.
Проектът включва дузина европейски езици с "ниски ресурси" като шотландски келтски, галисийски, ирландски, лингурски, босненски, исландски и уелски. Meta вкарва в тази група езици, разполагащи с по-малко от един милион изречения в данни, които могат да бъдат използвани за обучение на изкуствен интелект.
Според експертите, за да подобри услугата, Meta трябва да се консултира с хора, за които тези езици са майчини, и езикови специалисти, тъй като инструментът все още се нуждае от подобрения.
Как работи проектът
Meta обучава своя изкуствен интелект (AI) с данни от хранилището Opus - платформа с отворен код с колекция от автентични части от текстови и речеви сегменти на различни езици, които могат да се програмират за машинно обучение. Работещите с тези набори от данни са експерти в областта на обработката на естествен език (NLP) - подмножество на изследванията на AI, което дава на компютрите способността да превеждат и разбират човешкия език.
Освен това Meta разкри, че използва и комбинация от извлечени данни от източници като Wikipedia. Те се използват за това, което Meta нарича многоезичен езиков модел (MLM), при който AI може да превежда "между всяка двойка езици, без да разчита на данни от английския", според уебсайт на компанията.
Екипът на NLLB оценява качеството на своите преводи с помощта на създаден от тях еталон, базиран на преведени от хора изречения, който също е с отворен код. Това включва списък с "токсични" думи или фрази, които хората могат да научат софтуера да филтрира при превод на текст. Според последния им документ екипът на NLLB е подобрил точността на преводите с 44% спрямо първия си модел, който беше пуснат през 2020 г.
Според изчисленията на Meta, когато технологията бъде напълно внедрена, всеки ден във Facebook, Instagram и други платформи ще има над 25 милиарда превода.
"Говори с хората”
Уилям Ламб, професор по келтска етнология и лингвистика в Единбургския университет, е експерт по шотландски келтски език - един от езиците с ниски ресурси, идентифицирани от Meta в проекта NLLB. Около 2,5% от населението на Шотландия, приблизително 130 000 души, са заявили при преброяването през 2022 г., че имат някакви умения по келтския език от XIII век.
Около 2000 души, говорещи този език, има и в Източна Канада, където той се води малцинствен. ЮНЕСКО класифицира езика като "застрашен" от изчезване заради малкия брой хора, които го говорят редовно.
Ламб отбелязва, цитиран от Euronews, че преводите на Meta на шотландски келтски език "все още не са много добри" заради данните, които използват, въпреки че вървят във вярната посока.
"Това, което трябва да направят, ако наистина искат да подобрят превода, е да разговарят с хората, носителите на келтския език, които все още живеят и дишат с него", категоричен е Ламб.
Но това е по-лесно да се каже, отколкото да се направи. По думите му повечето от носителите на езика са на около 70 години и не използват компютри, а по-младите "използват шотландския келтски език обичайно не по начина, по който го правят техните баби и дядовци". Според него добър заместител би било Meta да сключи лицензионно споразумение с BBC, която работи за запазването на езика, като създава висококачествено онлайн съдържание на него.
"Това трябва да се прави от специалисти”
Алберто Бугарин-Диз, професор по изкуствен интелект в университета в Сантяго де Компостела, Испания, смята, че лингвисти като Ламб трябва да работят с големите технологични компании, за да усъвършенстват наличните им набори от данни.
"Това трябва да се прави от специалисти, които могат да ревизират текстовете, да ги коригират и да ги актуализират с метаданни, които бихме могли да използваме", казва Бугарин-Диз. "Хората от хуманитарните науки и от техническата сфера като инженерите трябва да работят заедно, това е истинска необходимост".
Използването на Wikipedia дава предимство за Meta, продължи Бугарин-Диз, защото данните ще отразяват "почти всеки аспект на човешкия живот", което означава, че качеството на езика може да бъде много по-добро, отколкото при използването само на по-официални текстове.
Но Бугарин-Диз съветва Meta и други компании за AI да отделят време да потърсят качествени данни онлайн и след това да преминат през правните изисквания, необходими за използването им, без да нарушават законите за интелектуална собственост.
Междувременно Ламб заяви, че не би препоръчал на хората да използват платформата в момента заради грешки в данните, освен ако Meta не направи някои промени в своя набор от данни.
"Не бих казал, че преводаческите им способности са на нивото, на което инструментите да са действително полезни", категоричен е Ламб.
Бугарин-Диз заема различна позиция. Той смята, че ако никой не използва преводите на Meta, те "няма да са склонни" да инвестират време и ресурси в тяхното подобряване.