Колкото по-умни, толкова по-скъпи: Тестването на reasoning AI модели вече струва цяло състояние
Малцина могат да си позволят да разберат колко всъщност е интелигентен един алгоритъм
&format=webp)
Ето ви един парадокс: Колкото по-„умни“ стават AI моделите, толкова по-скъпо ни излиза да разберем дали наистина са толкова умни.
OpenAI, Anthropic и други големи лаборатории твърдят, че новото поколение от т.нар. „reasoning модели“ – такива, които разсъждават стъпка по стъпка – са значително по-добри в някои конкретни области като физика, математика и логическо мислене, пише TechCrunch.
Само че, естествено… има един проблем: Почти никой извън тези лаборатории не може да си позволи да провери доколко това е така.
Според анализ на независимата платформа Artificial Analysis, само тестването на модела o1 на OpenAI върху седем популярни AI бенчмарка струва точно $2767,05. За сравнение, анализ на по-обикновения GPT-4o би струвал едва $108,85.
Ако вземем и новия модел на Anthropic – Claude 3.7 Sonnet, цената за неговото тестване е $1485,35, докато по-леката версия на OpenAI o3-mini-high излиза $344,59.
И това не е единичен случай. Artificial Analysis вече е похарчила над $5200, за да тества едва дузина reasoning модела – почти два пъти повече от бюджета за анализ на над 80 модела без reasoning (около $2400).
Защо излиза толкова скъпо?
Въпросът не е само в маркетинга, а и в математическите изчисления. Reasoning моделите генерират огромен обем от текст, който се измерва с т.нар. токени. Един токен може да е дума, сричка или част от дума (напр. “fantastic” се брои като три: “fan”, “tas”, “tic”). Колкото повече токени, толкова по-висока излиза сметката накрая.
Пример: при тестовете на o1, OpenAI моделът генерира над 44 милиона токена – почти осем пъти повече от GPT-4o. А тъй като повечето AI компании таксуват именно на токен, цената расте експоненциално с „интелигентността“ на модела.
„Навлизаме в свят, в който лабораторията отчита X% резултат на бенчмарк, за който е изхарчила Y количество ресурси – но академичната общност не разполага дори с част от Y“, пише Рос Тейлър, CEO на AI компанията General Reasoning, в пост в X.
Той плаща сумата от $580, за да тества Claude 3.7 Sonnet на около 3700 подкани. Само едно преминаване през пълния тест MMLU Pro би му струвало над $1800.
Artificial Analysis заявява, че ще увеличи бюджета си за тестване, тъй като все повече компании представят свои reasoning модели.
Според Жан-Станислас Дьонен от Epoch AI, съвременните тестове стават значително по-сложни.
„Броят въпроси намалява, но задачите са реални – писане на код, използване на компютър, дори търсене в интернет“, казва той пред TechCrunch. Резултатът е, че моделите генерират огромни количества токени, а разходите за тестване излизат някъде в стратосферата.
Най-мощните AI системи вече струват цяло състояние, и то само за да бъдат пуснати на пазара.
Когато Anthropic пуска Claude 3 Opus през май 2024 г., цената е $75 на милион изходни токени. OpenAI контрира с GPT-4.5 и o1-pro – $150 и $600 на милион токени съответно.
Според Дьонен: „Да, цената за достигане на определено ниво на производителност е спаднала през годините. Но ако искаш да тестваш най-доброто в даден момент, все още плащаш повече.“
AI лабораториите често предоставят достъп до моделите си за тестове безплатно или на по-ниска цена. Но това крие поредния риск: влияние върху обективността.
„Дори и да няма директна манипулация, самият факт, че лабораторията участва, вече подкопава доверието в резултатите“, твърдят експерти.
Рос Тейлър от General Reasoning директно задава въпроса:
„Ако публикуваш резултат, който никой не може да възпроизведе със същия модел – наука ли е това изобщо? Била ли е наука някога?“