От години изпълнителните директори на големите технологични компании промотират визии за AI агенти, които могат самостоятелно да използват софтуерни приложения, за да изпълняват задачи от името потребителите. Но ако изпробвате днешните AI агенти - било то ChatGPT Agent на OpenAI или Comet на Perplexity - бързо ще осъзнаете колко ограничена все още е тази технология. За да се направят AI агентите по-стабилни, може да са необходими нови техники, които индустрията все още открива, пише в свой анализ TechCrunch.

Една от тези техники е внимателното симулиране на работни пространства, където агентите могат да бъдат обучавани на многоетапни задачи – известни като среди за усилващо обучение (RL). Подобно на начина, по който етикетираните набори от данни задвижиха последната вълна на изкуствения интелект, RL средите започват да изглеждат като критичен елемент в разработването на агенти.

Изследователи, основатели и инвеститори в областта на изкуствения интелект споделят пред TechCrunch, че водещите лаборатории за изкуствен интелект вече се нуждаят от повече RL среди и не липсват стартиращи компании, които се надяват да ги предоставят.

„Всички големи лаборатории за изкуствен интелект изграждат RL среди в рамките на своите организации“, обяснява Дженифър Ли, генерален партньор в Andreessen Horowitz, в интервю за TechCrunch. „Но както можете да си представите, създаването на тези набори от данни е много сложно, така че лабораториите за изкуствен интелект търсят и външни доставчици, които могат да създадат висококачествени среди и оценки. Всички се интересуват от тази област“.

Натискът за RL среди е създал нова класа добре финансирани стартиращи компании, като Mechanize и Prime Intellect, които се стремят да станат лидери в тази област. Междувременно големи компании за етикетиране на данни като Mercor и Surge казват, че инвестират повече в RL среди, за да се приспособят към промените в индустрията от статични набори от данни към интерактивни симулации. Големите лаборатории също обмислят да инвестират сериозно: според The Information, лидерите на Anthropic са обсъдили да похарчат над 1 милиард долара за RL среди през следващата година.

Надеждата на инвеститорите и основателите е, че един от тези стартиращи компании ще се превърнат в „Scale AI за среди“, като се има предвид мощната компания за етикетиране на данни на стойност 29 милиарда долара, която даде тласък на ерата на чатботовете.

Въпросът е дали RL средите наистина ще променят границите на напредъка в AI.

Какво е RL среда?

В основата си RL средите са тренировъчни площадки, които симулират това, което AI агентът би правил в реална софтуерна приложение. Един от основателите описа създаването им в скорошно интервю като „създаване на много скучна видео игра“.

Например, една среда може да симулира браузъра Chrome и да възложи на AI агент задачата да купи чифт чорапи от Amazon. Агентът се оценява по неговата ефективност и получава сигнал за награда, когато успее (в този случай, когато купи подходящ чифт чорапи).

Макар подобна задача да звучи относително проста, има много места, където AI агентът може да се препъне. Може да се загуби в навигацията в падащите менюта на уеб страницата или да купи прекалено много чорапи. И тъй като разработчиците не могат да предвидят точно какъв грешен завой ще направи агентът, самата среда трябва да е достатъчно стабилна, за да улови всяко неочаквано поведение и все пак да предостави полезна обратна връзка. Това прави изграждането на RL среди много по-сложно от статичен набор от данни.

Някои от тях са доста сложни и позволяват на AI агентите да използват интернет и различни инструменти и софтуерни приложения, за да изпълнят дадена задача. Други са по-ограничени и имат за цел да помогнат на агента да научи конкретни задачи в софтуерни приложения за предприятия.

Макар RL средите да са много популярни в Силициевата долина в момента, има и много исторически прецеденти за използването на тази техника. Един от първите проекти на OpenAI през 2016 г. е изграждането на RL Gyms, които са доста сходни с модерната концепция за подобни среди. Същата година AI системата AlphaGo на Google DeepMind победи световния шампион по настолната игра Го. Тя също използва RL техники в симулирана среда, за да се обучи.

Уникалното в днешните RL среди е, че изследователите се опитват да създадат AI агенти, използващи компютри с големи модели. За разлика от AlphaGo, която беше специализирана AI система, работеща в затворени среди, днешните AI агенти са обучени да имат по-общи способности. Днес изследователите в областта на AI имат по-силна отправна точка, но и по-сложна цел, при която повече неща могат да се объркат.

Пренаселено поле

Компании за етикетиране на AI данни като Scale AI, Surge и Mercor се опитват да отговорят на момента и да изградят RL среди. Те разполагат с повече ресурси от много стартиращи компании в тази област, както и с дълбоки връзки с AI лаборатории.

Изпълнителният директор на Surge Едвин Чен споделя пред TechCrunch, че наскоро е забелязал „значително увеличение“ на търсенето на RL среди в AI лабораториите.

Изпълнителният директор на Surge Едвин Чен споделя пред TechCrunch, че наскоро е забелязал „значително увеличение“ на търсенето на RL среди в лабораториите за изкуствен интелект. Surge, която е генерирала 1,2 милиарда долара приходи през миналата година от работа с лаборатории за изкуствен интелект като OpenAI, Google, Anthropic и Meta, наскоро е създала нова вътрешна организация, специално натоварена с изграждането на RL среди.

След Surge се нарежда Mercor, стартираща компания с оценка от 10 милиарда долара, която също е работила с OpenAI, Meta и Anthropic. Mercor привлича инвеститори за своя бизнес, създавайки RL среди за специфични задачи като кодиране, здравеопазване и право. По думите на изпълнителния директор Брендан Фуди „малко хора разбират колко голяма е всъщност възможността около RL средите“.

Scale AI доминираше в областта на етикетирането на данни, но загуби позиции, след като Meta инвестира 14 милиарда долара и нае нейния главен изпълнителен директор. Оттогава Google и OpenAI се отказаха от Scale AI като доставчик на данни, като стартиращата компания дори се сблъска с конкуренция в работата си по етикетиране на данни вътре в Meta. Въпреки това Scale се опитва да се справи с момента и да започне да изгражда RL среди.

„Това е просто естеството на бизнеса, в който Scale AI оперира“, каза Четан Рейн, продуктов мениджър на Scale AI за агенти и RL среди. „Scale доказа способността си да се адаптира бързо. Направихме това в ранните дни на автономните превозни средства, първият ни бизнес отдел. Когато се появи ChatGPT, Scale AI се адаптира към това. И сега, отново, се адаптираме към нови области като агенти и среди“.

Някои по-нови играчи се фокусират изцяло върху средите от самото начало. Сред тях е Mechanize, стартираща компания, основана преди около шест месеца с амбициозната цел да „автоматизира всички работни места“. Съоснователят Матю Барнет обаче споделя пред TechCrunch, че компанията му започва да разработва RL среди за AI кодиращи агенти.

Mechanize има за цел да снабдява AI лабораториите с малък брой стабилни RL среди, казва той, а не по-големи компании за данни, които създават широка гама от прости RL среди. Към момента стартъпът предлага на софтуерните инженери заплати от 500 000 долара за изграждане на RL среди – много по-високи отколкото би могъл да спечели почасов изпълнител, работещ в Scale AI или Surge.

Други стартиращи компании залагат, че RL средите ще имат влияние извън AI лабораториите. Prime Intellect – стартираща компания, подкрепена от AI изследователя Андрей Карпати, Founders Fund и Menlo Ventures – се насочва към по-малки разработчици с RL средите си. Миналия месец Prime Intellect стартира център за RL среди, който има за цел да бъде „Hugging Face за RL среди“. Идеята е да се даде на разработчиците на отворен код достъп до същите ресурси, с които разполагат големите AI лаборатории, и да им се продава достъп до изчислителни ресурси в процеса.

Обучението на агенти с общи способности в RL среди може да бъде по-скъпо от предишните техники за обучение на AI, според изследователя от Prime Intellect Уил Браун. Според него, наред със стартиращите компании, които изграждат RL среди, има и друга възможност за доставчиците на GPU, които могат да захранват процеса.

„RL средите ще бъдат прекалено големи, за да може една компания да доминира“, казва Браун. „Част от това, което правим, е просто да се опитаме да изградим добра инфраструктура с отворен код около тях. Услугата, която продаваме, е изчислителна мощност, така че е удобен начин за използване на GPU, но ние мислим за това по-скоро в дългосрочен план“.

Ще се мащабира ли технологията?

Отвореният въпрос около RL средите е дали техниката ще се мащабира като предишните методи за обучение на AI. Усилващото обучение е в основата на някои от най-големите скокове в AI през последната година, включително модели като o1 на OpenAI и Claude Opus 4 на Anthropic. Това са особено важни пробиви, защото методите, използвани преди това за подобряване на AI моделите, сега показват намаляваща възвръщаемост.

Средата е част от по-големият залог на AI лабораториите на RL, което според мнозина ще продължи да стимулира напредъка, тъй като те добавят повече данни и изчислителни ресурси към процеса. Някои от изследователите на OpenAI, стоящи зад o1, коментират пред TechCrunch, че компанията първоначално е инвестирала в модели за изкуствен интелект, създадени чрез инвестиции в RL и изчислителни ресурси за тестове, защото са смятали, че те ще се мащабират добре.

Най-добрият начин за мащабиране на RL все още не е ясен, но средите изглеждат като обещаващ кандидат. Вместо просто да награждават чатботовете за текстови отговори, те позволяват на агентите да работят в симулации с инструменти и компютри на тяхно разположение. Това изисква много повече ресурси, но потенциално е по-изгодно.

Някои все пак са скептични, че всички тези RL среди ще се окажат успешни. Рос Тейлър, бивш ръководител на изследователския екип по изкуствен интелект в Meta, който е съосновател на General Reasoning, казва, че RL средите са податливи на хакерски атаки от типа reward hacking - процес, при който AI моделите мамят, за да получат награда, без да изпълняват задачата.

„Мисля, че хората подценяват колко е трудно да се мащабират средите“, казва Тейлър. „Дори най-добрите публично достъпни RL среди обикновено не работят без сериозни модификации“.

Шефът на инженерния отдел на OpenAI за API бизнеса, Шервин Уу, казва в скорошен подкаст, че е „краткосрочен“ по отношение на стартиращите компании в областта на RL средата. Уу отбелязва, че това е много конкурентна сфера, но също така, че изкуственият интелект се развива толкова бързо, че е трудно да се обслужват добре лабораториите.

Карпати, инвеститор в Prime Intellect, който определя RL средите като потенциален пробив, също е предпазлив по отношение на RL пространството в по-широк смисъл. В публикация в X той изразява загриженост относно това колко още напредък в AI може да бъде извлечен от този тип среди.

„Аз съм оптимист по отношение на средите и агентните взаимодействия, но съм песимист по отношение на подсилващото обучение в частност“, казва Карпати.