Можем ли да изследваме емоционалната интелигентност на AI? MIT търси отговора с нов бенчмарк
Учени от Media Lab предлагат нов стандарт за оценка на изкуствения интелект – не по способността му да решава задачи, а по начина, по който влияе върху хората и подкрепя по-здравословно поведение
&format=webp)
Появата на изцяло новия GPT-5 миналата седмица донесе неочаквана вълна от недоволство сред потребителите на AI инструмента. Част от тях бързо усетиха, че жизнерадостният и окуражаващ тон на GPT-4o е заменен от по-студен и делови – промяна, която изглежда е насочена към ограничаване на нездравословното поведение.
Реакцията на потребителите обаче само показва колко трудно е да се изградят AI системи, които имитират реалната емоционална интелигентност.
Изследователи от MIT предлагат нов тип бенчмарк, който да измерва не просто интелекта на AI, а способността му да влияе върху хората – както позитивно, така и негативно. Идеята е инструментът да помогне на разработчиците да избегнат бъдещи „обрати в настроенията“ и едновременно да защити уязвимите потребители, пише WIRED.
До момента тестовете измерваха дали една система може да решава логически пъзели или сложни задачи, но новият тест се фокусира върху някои по-фини аспекти като: насърчаване на здравословни социални навици; стимулиране на критично мислене и креативност; изграждане на смисъл и цел; предотвратяване на зависимост от чатботове или от изкуствени романтични връзки.
„Можете да имате най-умния модел за разсъждение в света, но ако той не е способен да предложи емоционална подкрепа – което е причината много потребители изобщо да използват LLM – тогава повече разсъждение не е непременно полезно“, казва Валдемар Данри, изследовател в MIT Media Lab.
OpenAI вече се сблъска с тези проблеми. През април компанията промени моделите си, за да намали тяхната склонност към „подмазване“ и автоматично съгласяване с всичко, което каже потребителят. Причината е, че някои хора развиват опасни заблуди след ролеви игри с чатботовете. Конкурентът Anthropic също адаптира Claude, за да избягва подсилването на „мания, психоза или откъсване от реалността“.
„Идеалният модел трябва да може да разпознае, ако има негативен психологически ефект, и да се оптимизира за по-здравословни резултати“, обяснява Данри. „Това, което искате, е модел, който да каже: ‘Тук съм, за да те изслушам, но може би трябва да поговориш и с баща си за тези неща’.“
Как работи новият бенчмарк?
Според MIT инструментът ще симулира реални предизвикателни ситуации – например чатбот, който трябва да мотивира апатичен студент. След това реални хора ще оценяват отговорите на модела. Този, който най-добре насърчава самостоятелно мислене и интерес към ученето, ще получава по-високи оценки.
„Не става въпрос просто за интелигентност, а за психологическия нюанс – как да подкрепяш хората по уважителен и независим начин“, подчертава Пат Патаранутопорн, друг изследовател от MIT.
OpenAI и „емоционалният“ GPT-5
Компанията на Сам Алтман също върви стремглаво в тази посока. В блог публикация OpenAI заяви, че работи върху модели, които могат да разпознават признаци на психическо напрежение и да реагират по адекватен начин. В документацията за GPT-5 се посочва, че моделите са „обучени да бъдат по-малко подмазващи“ и че се изследват нови методи за откриване на емоционална зависимост или психически риск.
„Работим върху актуализация на личността на GPT-5, която трябва да изглежда по-топла от сегашната, но не толкова дразнеща (за повечето потребители), колкото GPT-4o“, пише Алтман в X. „Един от големите уроци, които научихме, е, че се нуждаем от по-голяма персонализация на личността на модела за всеки отделен потребител.“
Големият въпрос остава
Разочарованието от GPT-5 може би издава нещо по-дълбоко: има области на човешката интелигентност, които остават извън обсега на изкуствения интелект. Най-вече – умението да изграждаш и поддържаш здрави взаимоотношения.