Изгубени в превода: Ще убие ли американският изкуствен интелект европейската култура?
Държавите от ЕС стартираха и подкрепиха множество инициативи, насочени към създаването на AI инструменти, които владеят местните езици
Европейските страни се надпреварват да създават свои собствени чатботове с изкуствен интелект, за да се противопоставят на технологиите, произведени в САЩ, да поглъщат техните икономики, култура и дори езици.
От София до Мадрид, държавите от Европейския съюз стартираха и подкрепиха множество инициативи, насочени към създаването на AI инструменти, които наистина владеят местните езици, съобщава Politico.
Най-новата технология на изкуствения интелект, която захранва инструменти като популярния чатбот ChatGPT, се основава на "големи езикови модели" или LLM - системи, които са способни да водят разговор, наподобяващ човешкия. Езикът е в основата на тези иновации, а ЕС - Вавилонска кула с 24 официални езика, от литовски до малтийски - иска процъфтяващата технология да бъде съобразена със собственото му културно съдържание и особености.
"Марк Твен не бива да заличава Стендал", заяви френският министър на икономиката Бруно Льо Мер на технологично събитие в Кан през февруари. "Не искаме да се задоволяваме само с английски. Продължавайки напред, не искаме майчиният ни език да бъде отслабен от алгоритми и системи с изкуствен интелект."
Съединените щати са водещи в настоящата вълна от технологични иновации. Страната може да се похвали сред своите редици с производителя на ChatGPT OpenAI - и неговия голям спонсор Microsoft, както и Google с инструмента Gemini. Anthropic, Meta и xAI също са в надпреварата за създаване на водещи модели.
Бързината на американската индустрия накара европейските правителства да се тревожат. Те се опасяват, че ще се повтори господството, което компаниите от САЩ имаха в епохата на социалните мрежи и Web 2.0.
Европа все пак се бори с калифорнийските гиганти. Само през последната година 13 държави са обявили или предприели стъпки за разработване на местни модели, фокусирани върху езиците им, установява проучване на Politico.
Повечето oт проектите са с отворен код, като се опитват да компенсират разликите в компютърните технологии и финансирането в САЩ, като разчитат на огромна общност от доброволци. С оживлението идва и надеждата за създаване на жизнена местна икономика на изкуствения интелект.
"Наличието на модели на местния език е свързано и с насърчаването на повече хора във вашата страна да програмират и да разработват повече AI продукти ", казва Карлос Ромеро Дупла, бивш испански дипломат, пред Politico. "Това насърчава цялата технологична екосистема."
За някои държави, като Испания, моделите с местни езици могат да помогнат за увеличаване на влиянието им в културно и исторически свързани части на света. Мадрид, който финансира създаването на LLM с испански, вижда в нововъзникващата технология област за по-тясно сътрудничество с иберо-американските държави.
Борбата за LLM на собствен език идва в момент, когато културната индустрия е в ожесточена - а според някои и екзистенциална борба с технологичните компании за артистично съдържание. Продължават да изникват оплаквания за злоупотреба с филмови сценарии, медийни архиви и дори авторските права върху гласовите отпечатъци на музикалните изпълнители.
През изминалите месеци OpenAI сключи сделки с международни медийни компании като Axel Springer и Le Monde, изграждайки набор от висококачествено учебно съдържание на чужди езици.
В речта си в Кан Льо Мер предложи създаването на европейски единен пазар за учебни данни с контролирани цени. Целта на това е да попречи на американските технологични гиганти с дълбоки джобове да наддават над европейските компании за изкуствен интелект за достъп до всяка ценна информация.
Франция също така оглави създаването на Alt-EDIC - консорциум на ЕС от 12 държави, посветен на вътрешноблоково сътрудничество за разработване на модели с европейски езици.
По ирония на съдбата, за да бъдат наистина конкурентоспособни, европейските LLM все още ще трябва да владеят английски - който остава езикът на повечето от световните научни трудове и на малко повече от половината от страниците в световната мрежа, според онлайн проучванията на W3Techs.
"Съществува дисбаланс на силите по отношение на количеството и качеството на данните за обучение: погледнете само колко голяма е английската Wikipedia в сравнение с версиите ѝ на други езици", казва пред Politico Себастиан Рудер, учен в компанията за многоезичен изкуствен интелект Cohere.
Някои модели, създадени в САЩ, владеят езици, различни от английския, но те невинаги притежават необходимите познания и нюанси, за да обслужват добре местните потребители.
"Трябва например да се постигне правилното ниво на учтивост", казва Рудър. "Помислете за това да научите чатбота да използва учтивото местоимение "vous" вместо неофициалното "tu", за да не засегне по-възрастен френски потребител."
За инструментите, които са проектирани да общуват с всички - от гражданите на дадена страна до клиентите на специфична компания, това може да създаде проблеми. Оценката на "културното съответствие", извършена през август 2023 г. от University College London, установява, че чатовете на OpenAI и Google не съответстват на културните норми в страни като Китай, Саудитска Арабия и Словакия. За разлика от това те са издържали тестовете за американските норми.
Тъй като изкуственият интелект навлиза във всеки аспект на нашето общество, въздействието на подобни културни сблъсъци може да бъде значително. Крис Шришак, сътрудник по технологиите в Ирландския съвет за граждански свободи, казва: "Американска технологична компания може да обучи своя модел, да речем, на литовски, но тогава ще е на загуба. Затова обикновено го обучава на английски език и след това прави някои доработки".
Решението, според Рудер, е европейските разработчици на изкуствен интелект да обучават своите чатботове както на своя език, така и на английски. По този начин ще позволят на LLM да се възползва от закодираните в английския език познания, докато разговаря на родния си език.