Изгубени в превода: Африка срещу езиковата бариера на изкуствения интелект
Липсата на данни за над 2 000 африкански езика застрашава милиони хора да останат извън дигиталната революция на AI
&format=webp)
Африка е дом на повече от една четвърт от езиците в света, но повечето от тях отсъстват в развитието на изкуствения интелект. Причините за това са ясни – липса на инвестиции и достъпни данни.
Инструментите за изкуствен интелект, които днес използваме, включително и най-популярните модели като ChatGPT, се обучават главно върху английски, европейски и китайски езици – заради предимството на огромни масиви от текстове, които могат да бъдат намерени онлайн. Африканските езици обаче предимно се разпространяват устно, а липсата на писмен корпус автоматично означава, че милиони хора остават извън дигиталната революция.
„Ние мислим на нашите собствени езици, сънуваме на тях и чрез тях разбираме света. Ако технологиите не го отразяват, цели групи от хора рискуват да останат в изолация от технологичната революция“, казва проф. Вукоси Маривате от Университета в Претория, който работи по разрешаването на този проблем, пред BBC.
Наскоро екип от изследователи представи най-големия до момента набор от данни на африкански езици. Проектът носи името Africa Next Voices и е финансиран с 2,2 млн. долара от фондация Gates. Той обедини лингвисти и компютърни учени, за да създаде AI-бази на 18 африкански езика.
В рамките на две години са записани 9 000 часа реч в Кения, Нигерия и Южна Африка, в реални ситуации, свързани със земеделие, здраве и образование.
Сред включените езици са кикуйо и дхолуо в Кения, хауса и йоруба в Нигерия, както и зулу и тшивенда в Южна Африка – някои от тях се говорят от милиони хора. „Това е основа, върху която може да се надгражда, и хората да добавят свои иновации“, обяснява проф. Маривате, ръководил изследването в Южна Африка.
Кенийската лингвистка Лилиан Уанзаре подчертава, че целта е била данните да отразяват реалния начин, по който хората говорят и живеят.
„Събрахме гласове от различни региони, възрасти и социални среди, за да бъде възможно най-обширно. Големите технологични компании не винаги виждат тези проблеми по начина, по който ние ги виждаме“, казва тя.
Данните ще бъдат с отворен достъп, което ще позволи на разработчиците да изграждат инструменти за превод, транскрипция и взаимодействие на африкански езици.
Пример за ползите вече съществува. Южноафриканската фермерка Келебогиле Мосиме управлява 21 хектара зеленчуци в Рюстенбург и използва приложението AI-Farmer, което разпознава местни езици като сесото, зулу и африкаанс.
„Като човек, който тепърва се учи да бъде фермер, се сблъсквам с множество предизвикателства. Всеки ден виждам ползата от това да използвам родния си език сетсвана в приложението. Когато имам проблеми, питам и получавам полезни отговори – от информация за това как да контролирам вредители до диагностика на болни растения“, споделя тя.
Южноафриканският стартъп Lelapa AI също разработва решения за банки и телекоми.
„Английският е езикът на възможностите. За много южноафриканци, които не го говорят, това е много повече от неудобство, защото означава пропуски в достъпа до здравни услуги, банкиране или дори подкрепа от държавата“, казва изпълнителният директор Пелономи Мойлоа. „Езикът може да бъде огромна бариера. Ние казваме, че не трябва да се случва по този начин.“
За проф. Маривате инициативите далеч надхвърлят бизнеса и удобството: „Езикът е достъп до въображение. Това не са просто думи – тук става въпрос за история, култура, знания. Ако местните езици не са включени, губим много повече от данни – губим начини да виждаме и разбираме света.“