OpenAI пуска в действие нов агент на ChatGPT, способен да използва виртуален браузър, да попълва формуляри, да взаимодейства с API-та и – най-впечатляващото – да създава файлове, готови за сваляне, включително PowerPoint презентации и Excel таблици.

Въпреки че целта не е да се явява като директен заместител на Microsoft Office, новият агент вероятно ще намали зависимостта на потребителите от част от корпоративния софтуер.

Това идва в момент, когато OpenAI и Microsoft, които са дългогодишни партньори, водят нови преговори за достъпа до моделите на компанията.

Новият агент е част от смелите амбиции на OpenAI да превърне ChatGPT в устойчив бизнес – задача, която е доста сложна, дори при милиони потребители, предвид всекидневните разходи за обучение и поддръжка на моделите, както и нуждата от сериозни заплати за талантите, които работят за развитието на системата.

В света на изкуствения интелект агентът е софтуерна система, която може да взема решения и да навигира през сайтове и приложения, за да изпълнява поставена задача – от името на различен потребител.

Именно този „агент“ се превръща в една от най-използваните думи в речника на компаниите, които разработват AI инструменти за корпоративни клиенти.

„Опитахме се да създадем продукт с множество приложения за бизнеса“, казва Яш Кумар, продуктов мениджър на новия ChatGPT агент. Освен че създава файлове, инструментът е способен да работи с терминали за код, да комуникира с услуги като Google Drive и SharePoint, както и да попълва уеб формуляри.

Това все пак не е първият агентен асистент на OpenAI за годината. Новата версия комбинира две вече съществуващи разработки – Operator, който „цъка“ из сайтове с виртуална мишка, и deep research, който сканира множество източници за по-задълбочени проучвания.

„Бях част от екипа на deep research, а Яш – от Operator“, казва Фълфорд. „Осъзнахме, че продуктите ни се допълват идеално и решихме да обединим екипите.“

Агентът може да превключва между визуален браузър и текстов интерфейс, според нуждите на задачата – независимо дали подготвя романтична вечеря или анализира финансов отчет.

Новият агент вече е достъпен за Pro, Plus и Team абонати, като първо го получават Pro потребителите. Корпоративните и образователни клиенти ще имат достъп „по-късно това лято“. При старта лимитът е 400 заявки на месец за Pro абонати и 40 за останалите платени планове. Все още няма яснота кога функцията ще достигне и до потребителите с безплатен план.

В демонстрация за WIRED Кумар показва как агентът планира среща, резервира маса в ресторант и дори подготвя цяла презентация с анализ на Q1 резултатите на Nvidia.

Времето за изпълнение на задачата варира – от около 5 минути за среща до 25 минути за презентация. Средната по дължина задача отнема между 10 и 15 минути. „Може да се правят няколко задачи едновременно“, отбелязва Кумар.

С възможността агентът да използва памет – функция, която ChatGPT вече тества – ще може да се адаптира още по-точно към стила и предпочитанията на потребителя. Например, знае каква храна харесва партньорът ви или какви формати за презентации предпочитате. Към момента обаче паметта няма да бъде част от агента, поясняват от OpenAI.

„Не защото мислим, че не е безопасно, а просто искаме да сме допълнително внимателни“, обяснява Кумар, позовавайки се на рискове като т.нар. prompt injection атаки.

Контролът на потребителя все още е важна част при изпълнението на всички задачи, казват Фълфорд и Кумар. Списък от „рискови сайтове“ – като социални мрежи или страници за финансови транзакции – е изключен от достъпа на агента.

Подобно на „watch mode“ при Operator, и тук има режим, който изисква потребителят да наблюдава изпълнението на задачата и да не затваря браузъра, ако се извършват по-чувствителни действия.

Най-интригуващата новация обаче се оказва функцията „replay“ – потребителят може да гледа екранен запис на всяка интеракция с агента. „Преди агентите разговорите бяха сравнително кратки“, казва Кумар. „Сега те стават по-дълги и по-комплексни.“