AI може да се справя отлично с определени задачи като кодиране или създаване на подкаст. Но той се затруднява да издържи изпит по история на високо ниво.

Екип от изследователи е създал нов бенчмарк за тестване на три водещи големи езикови модела (LLM) - GPT-4 на OpenAI, Llama на Meta и Gemini на Google - върху исторически въпроси. Hist-LLM проверява правилността на отговорите според Seshat - огромна база данни с исторически знания, кръстена на древноегипетската богиня на мъдростта.

Резултатите, представени на престижната конференция за изкуствен интелект NeurIPS, са разочароващи според изследователите от Complexity Science Hub (CSH), изследователски институт, базиран в Австрия. Най-добре представилият се LLM е GPT-4 Turbo, но той е постигнал едва около 46% точност - не много по-висока от случайното отгатване.

„Основният извод от това проучване е, че LLM, макар и впечатляващи, все още нямат дълбочината на разбиране, необходима за напредналата история. Те са чудесни за основни факти, но когато става въпрос за по-нюансирано историческо изследване на ниво докторат, все още не са на нужната висота“, коментира пред TechCrunch Мария дел Рио-Чанона, един от съавторите на изследването и доцент по компютърни науки в University College London.

Изследователите споделят с медията примерни исторически въпроси, които LLM са сбъркали. Например GPT-4 Turbo е бил попитан дали през определен период от време в Древен Египет е имало броня от застъпени малки плочки. LLM отговоря с „да“, но всъщност тази технология се появява цели 1500 години по-късно.

Но защо големите езикови модели са слаби в отговорите на технически исторически въпроси, след като могат да бъдат толкова добри в отговорите на много сложни такива за неща като кодирането? Дел Рио-Чанона казва, че това вероятно се дължи на факта, че LLM са склонни да екстраполират от исторически данни, които са много известни, като им е трудно да извличат по-нишови знания.

Изследователите са попитали GPT-4 дали в Древен Египет е имало професионална постоянна армия през определен исторически период. Въпреки че правилният отговор е „не“, LLM отговоря с „да“. Това вероятно е така, защото има много публична информация за това, че други древни империи, като Персия, са имали подобни.

„Ако ви обяснят А и Б по 100 пъти, а В 1 път, и след това ви зададат въпрос за В, може би просто ще си спомните А и Б и ще се опитате да екстраполирате от тях“, казва дел Рио-Чанона.

Изследователите установяват и други тенденции, включително че моделите на OpenAI и Llama се представят по-зле в някои региони като Африка на юг от Сахара, което предполага потенциални отклонения в техните данни за обучение.

„Резултатите показват, че моделите на Llama все още не са заместител на хората, когато става въпрос за определени области“, каза Питър Турчин, който ръководи проучването и е член на CSH.

Но изследователите все още се надяват, че LLM могат да помогнат на историците в бъдеще. Те работят върху усъвършенстването на своя сравнителен анализ, като включват повече данни от слабо представени региони и добавят по-сложни въпроси.

„Като цяло, въпреки че нашите резултати подчертават областите, в които LLM се нуждаят от подобрение, те също така обрисуват потенциала на тези модели да помагат в историческите изследвания“, се казва в научната статия.