Ето ви един парадокс: Колкото по-„умни“ стават AI моделите, толкова по-скъпо ни излиза да разберем дали наистина са толкова умни.

OpenAI, Anthropic и други големи лаборатории твърдят, че новото поколение от т.нар. „reasoning модели“ – такива, които разсъждават стъпка по стъпка – са значително по-добри в някои конкретни области като физика, математика и логическо мислене, пише TechCrunch.

Само че, естествено… има един проблем: Почти никой извън тези лаборатории не може да си позволи да провери доколко това е така.

Според анализ на независимата платформа Artificial Analysis, само тестването на модела o1 на OpenAI върху седем популярни AI бенчмарка струва точно $2767,05. За сравнение, анализ на по-обикновения GPT-4o би струвал едва $108,85.

Ако вземем и новия модел на Anthropic – Claude 3.7 Sonnet, цената за неговото тестване е $1485,35, докато по-леката версия на OpenAI o3-mini-high излиза $344,59.

И това не е единичен случай. Artificial Analysis вече е похарчила над $5200, за да тества едва дузина reasoning модела – почти два пъти повече от бюджета за анализ на над 80 модела без reasoning (около $2400).

Защо излиза толкова скъпо?

Въпросът не е само в маркетинга, а и в математическите изчисления. Reasoning моделите генерират огромен обем от текст, който се измерва с т.нар. токени. Един токен може да е дума, сричка или част от дума (напр. “fantastic” се брои като три: “fan”, “tas”, “tic”). Колкото повече токени, толкова по-висока излиза сметката накрая.

Пример: при тестовете на o1, OpenAI моделът генерира над 44 милиона токена – почти осем пъти повече от GPT-4o. А тъй като повечето AI компании таксуват именно на токен, цената расте експоненциално с „интелигентността“ на модела.

„Навлизаме в свят, в който лабораторията отчита X% резултат на бенчмарк, за който е изхарчила Y количество ресурси – но академичната общност не разполага дори с част от Y“, пише Рос Тейлър, CEO на AI компанията General Reasoning, в пост в X.

Той плаща сумата от $580, за да тества Claude 3.7 Sonnet на около 3700 подкани. Само едно преминаване през пълния тест MMLU Pro би му струвало над $1800.

Artificial Analysis заявява, че ще увеличи бюджета си за тестване, тъй като все повече компании представят свои reasoning модели.

Според Жан-Станислас Дьонен от Epoch AI, съвременните тестове стават значително по-сложни.

„Броят въпроси намалява, но задачите са реални – писане на код, използване на компютър, дори търсене в интернет“, казва той пред TechCrunch. Резултатът е, че моделите генерират огромни количества токени, а разходите за тестване излизат някъде в стратосферата.

Най-мощните AI системи вече струват цяло състояние, и то само за да бъдат пуснати на пазара.

Когато Anthropic пуска Claude 3 Opus през май 2024 г., цената е $75 на милион изходни токени. OpenAI контрира с GPT-4.5 и o1-pro – $150 и $600 на милион токени съответно.

Според Дьонен: „Да, цената за достигане на определено ниво на производителност е спаднала през годините. Но ако искаш да тестваш най-доброто в даден момент, все още плащаш повече.“

AI лабораториите често предоставят достъп до моделите си за тестове безплатно или на по-ниска цена. Но това крие поредния риск: влияние върху обективността.

„Дори и да няма директна манипулация, самият факт, че лабораторията участва, вече подкопава доверието в резултатите“, твърдят експерти.

Рос Тейлър от General Reasoning директно задава въпроса:

„Ако публикуваш резултат, който никой не може да възпроизведе със същия модел – наука ли е това изобщо? Била ли е наука някога?“