Когато стандартните методи за измерване на възможностите на изкуствения интелект вече не вършат работа, разработчиците на AI намират нови, по-интересни начини да проверяват кой модел е по-добър, пише TechCrunch.

Един от най-любопитните подобни експерименти се случва… в Minecraft.

Да, правилно разбрахте - най-продаваната видео игра в историята се използва като своеобразен полигон за тестване на генеративни AI модели.

Действието се развива благодарение на сайта Minecraft Benchmark (или просто MC-Bench) - платформа, създадена от група ентусиасти, които буквално сблъскват различни AI модели в битка на виртуални строежи. Задава се една и съща подкана (например „построй ананас“) и различните модели я изпълняват.

Потребителите гласуват коя от постройките е по-добра - без предварително да знаят кой AI я е направил.

Зад идеята стои едва 12-класник - Ади Сингх, който казва, че именно визуалната простота и добре познатият стил на Minecraft правят играта перфектния терен за оценка на напредъка на изкуствения интелект.

"Хората са свикнали с Minecraft - с външния ѝ вид, с усещането, което създава", казва Сингх пред TechCrunch. "Така много по-лесно се вижда какво точно може да прави един модел."

Проектът е поддържан от осем доброволци, а компании като Anthropic, Google, OpenAI и Alibaba осигуряват достъп до своите AI модели за провеждане на тестовете. Те обаче нямат друга формална връзка с инициативата.

Към момента MC-Bench се фокусира върху по-прости задачи, а целта е да се покаже нагледно колко са се подобрили моделите спрямо времената на GPT-3.

Сингх обаче има по-големи планове: да разшири проекта към по-дълги и по-сложни мисии, ориентирани към постигането на конкретни цели. "Игрите може би са най-безопасният и контролиран начин да тестваш агентно поведение", смята той. "И точно това ги прави идеални за нас."

Minecraft не е единствената игра, която служи за AI тестова площадка. Pokémon Red, Street Fighter и дори Pictionary вече са били използвани в подобни експерименти.

Въпреки че повечето изследователи все още предпочитат да тестват AI моделите чрез стандартни практики, тези тестове често дават „предимство“ на моделите, защото са прекалено „удобни“. Те са обучени да се справят с повтарящи се задачи и логически проблеми от определен тип - неща, в които буквално са тренирани да бъдат добри.

Но какво изобщо означава, че GPT-4 попада в 88-ия персентил на теста LSAT, а същевременно не може да преброи колко пъти буквата R се среща в думата strawberry?

Или пък, че Claude 3.7 Sonnet постига над 60% точност в софтуерен тест, но губи на Pokémon от 5-годишно дете?

Точно тук идва чарът на MC-Bench. На практика моделите пишат код, за да изградят нещо по зададената тема, независимо дали става въпрос за Frosty the Snowman или „очарователна тропическа хижа на пясъчен бряг“. Да, това все още тества програмирането им, но крайният резултат е визуален.

Хората могат да го оценят с очите си - кой снежен човек изглежда по-добре?

Това превръща MC-Bench не само в по-достъпна алтернатива за широката аудитория, но и в по-полезен инструмент за събиране на реални данни.

Разбира се, остава въпросът доколко тези резултати реално имат значение.

Според Сингх, те са от огромно значение.

„Текущата класация отразява доста точно личните ми впечатления от работата с тези модели - нещо, което не мога да кажа за стандартните тестове“, казва той. „Може би MC-Bench ще се окаже полезен инструмент за компаниите - за да разберат дали изобщо вървят в правилната посока.“