Колкото по-умни, толкова по-скъпи: Тестването на reasoning AI модели вече струва цяло състояние

Малцина могат да си позволят да разберат колко всъщност е интелигентен един алгоритъм

Pixabay

Ето ви един парадокс: Колкото по-„умни“ стават AI моделите, толкова по-скъпо ни излиза да разберем дали наистина са толкова умни.

OpenAI, Anthropic и други големи лаборатории твърдят, че новото поколение от т.нар. „reasoning модели“ – такива, които разсъждават стъпка по стъпка – са значително по-добри в някои конкретни области като физика, математика и логическо мислене, пише TechCrunch.

Само че, естествено… има един проблем: Почти никой извън тези лаборатории не може да си позволи да провери доколко това е така.

Според анализ на независимата платформа Artificial Analysis, само тестването на модела o1 на OpenAI върху седем популярни AI бенчмарка струва точно $2767,05. За сравнение, анализ на по-обикновения GPT-4o би струвал едва $108,85.

Ако вземем и новия модел на Anthropic – Claude 3.7 Sonnet, цената за неговото тестване е $1485,35, докато по-леката версия на OpenAI o3-mini-high излиза $344,59.

И това не е единичен случай. Artificial Analysis вече е похарчила над $5200, за да тества едва дузина reasoning модела – почти два пъти повече от бюджета за анализ на над 80 модела без reasoning (около $2400).

Китайският стартъп представи технология, при която моделите сами оценяват и подобряват отговорите си без нужда от допълнителна човешка намеса

Ново оръжие в AI надпреварата: Самокритичният модел на DeepSeek

Защо излиза толкова скъпо?

Въпросът не е само в маркетинга, а и в математическите изчисления. Reasoning моделите генерират огромен обем от текст, който се измерва с т.нар. токени. Един токен може да е дума, сричка или част от дума (напр. “fantastic” се брои като три: “fan”, “tas”, “tic”). Колкото повече токени, толкова по-висока излиза сметката накрая.

Пример: при тестовете на o1, OpenAI моделът генерира над 44 милиона токена – почти осем пъти повече от GPT-4o. А тъй като повечето AI компании таксуват именно на токен, цената расте експоненциално с „интелигентността“ на модела.

„Навлизаме в свят, в който лабораторията отчита X% резултат на бенчмарк, за който е изхарчила Y количество ресурси – но академичната общност не разполага дори с част от Y“, пише Рос Тейлър, CEO на AI компанията General Reasoning, в пост в X.

Той плаща сумата от $580, за да тества Claude 3.7 Sonnet на около 3700 подкани. Само едно преминаване през пълния тест MMLU Pro би му струвало над $1800.

Създаден от 12-класника Ади Сингх, този необичаен тест разкрива кои AI модели наистина могат да мислят креативно

Minecraft вместо стандартните тестове: Къде AI показва истинския си потенциал

Artificial Analysis заявява, че ще увеличи бюджета си за тестване, тъй като все повече компании представят свои reasoning модели.

Според Жан-Станислас Дьонен от Epoch AI, съвременните тестове стават значително по-сложни.

„Броят въпроси намалява, но задачите са реални – писане на код, използване на компютър, дори търсене в интернет“, казва той пред TechCrunch. Резултатът е, че моделите генерират огромни количества токени, а разходите за тестване излизат някъде в стратосферата.

Новият модел на Google впечатлява с логическо мислене програмиране и разбиране на сложна информация

Най-важният AI модел за 2025 г.? Gemini 2.5 Pro на Google е сериозен претендент

Най-мощните AI системи вече струват цяло състояние, и то само за да бъдат пуснати на пазара.

Когато Anthropic пуска Claude 3 Opus през май 2024 г., цената е $75 на милион изходни токени. OpenAI контрира с GPT-4.5 и o1-pro – $150 и $600 на милион токени съответно.

Според Дьонен: „Да, цената за достигане на определено ниво на производителност е спаднала през годините. Но ако искаш да тестваш най-доброто в даден момент, все още плащаш повече.“

AI лабораториите често предоставят достъп до моделите си за тестове безплатно или на по-ниска цена. Но това крие поредния риск: влияние върху обективността.

„Дори и да няма директна манипулация, самият факт, че лабораторията участва, вече подкопава доверието в резултатите“, твърдят експерти.

Рос Тейлър от General Reasoning директно задава въпроса:

„Ако публикуваш резултат, който никой не може да възпроизведе със същия модел – наука ли е това изобщо? Била ли е наука някога?“

Сподели Сподели Сподели Сподели

СВЪРЗАНИ СТАТИИ

Технологии/Изкуствен интелект

Grok на Мъск влиза в „секси“ режим, но xAI има спешна нужда от екип по сигурността

Мъск обеща свободомислещ AI, но получи дигитална кутия на Пандора

от profit.bg -

прочети

Технологии/Изкуствен интелект

Какво е EGI - следващият етап в развитието на изкуствения интелект

Enterprise General Intelligence се очаква да се адаптира към специфичните нужди на бизнеса в дадена област

от profit.bg -

прочети

Технологии/Изкуствен интелект

Поглед през очите на изкуствения интелект: Как всъщност мислят големите езикови модели

Учени от Anthropic отварят черната кутия на алгоритмите, за да разкрият как AI планира, римува и разсъждава

от profit.bg -

прочети

Последни Технологии

виж още

Технологии

Германия обяви първата си космическа стратегия и 35 млрд. евро за орбитална отбрана до 2030 г.

Технологии/Геополитика

Саудитска Арабия иска американски F-35. Успехът на Израел с тях показва защо

Обещанието на администрацията на Тръмп да продаде най-напредналия американски изтребител на Саудитска Арабия заплашва да отслаби един от ключовите стълбове на израелското военно превъзходство в региона

от profit.bg -

прочети

Технологии/Иновации

Нидерландия прекратява намесата си в Nexperia след пробив в разговорите с Пекин

След месеци на напрежение в сектора на чиповете Нидерландия и Китай постигат пробив: Пекин разрешава износа на Nexperia, а Хага спира извънредните мерки, които тревожеха автомобилните производители в Европа

от profit.bg -

прочети

Бизнес/Технологии

По-малко бюрокрация: ЕК предлага отсрочка за законите за AI и GDPR в полза на технологичните гиганти

Предложените промени в GDPR ще позволят на Alphabet, Meta, OpenAI и други технологични компании да използват личните данни на европейците за обучение на своите модели на изкуствен интелект

от profit.bg -

прочети

Последни Profit

виж още

Бизнес

Уолстрийт гледа към Хуанг: Гласът му може да обърне или ускори спада в AI сектора

Технологии/Киберсигурност

Германия обяви първата си космическа стратегия и 35 млрд. евро за орбитална отбрана до 2030 г.

Стратегията определя необходимостта от идентифициране на опасности и заплахи в космоса и разработване на мерки за реакция, както и от изграждане на възпиращи способности и насърчаване на международното сътрудничество

от profit.bg -

прочети

Бизнес/Индустрии

„Лукойл“ заяви, че запазва правото си на съдебни действия в България след назначаването на особен управител

„Предприемаме всички необходими стъпки за завършване на продажбата на рафинерията, мрежата от бензиностанции и други активи в България на нов собственик; очакваме дейността на особения управител да не възпрепятства този процес“, посочва енергийният гигант

от profit.bg -

прочети

Технологии/Геополитика

Саудитска Арабия иска американски F-35. Успехът на Израел с тях показва защо

Обещанието на администрацията на Тръмп да продаде най-напредналия американски изтребител на Саудитска Арабия заплашва да отслаби един от ключовите стълбове на израелското военно превъзходство в региона

от profit.bg -

прочети