„Чатботът ме молеше да спра“: Кой манипулира изкуствения интелект, за да го направи безопасен

Експерти използват психологически техники, за да заобикалят защитите на езиковите модели

Getty Images

Пробивът идва преди няколко месеца. Вален Талиабуе седи в хотелската си стая, втренчен в екрана и с усещане за еуфория. Току-що е успял да манипулира чатбота си така, че изкуственият интелект започва да игнорира собствените си правила за безопасност. Без колебание му обяснява как да синтезира нови, смъртоносни патогени и как да ги направи устойчиви на съвременните лекарства.

За Талиабуе това е успех. И за компаниите, които разработват тези системи – също. Но такива резултати се постигат трудно и понякога имат цена, която не се измерва в пари.

Талиабуе не е типичният софтуерен инженер. Фокусът му е върху психологията и когнитивните науки. Той е сред най-добрите т.нар. „джейлбрейкъри“ (jailbreakers) – хора, които се опитват да заблуждават езиковите модели и да заобикалят защитите им, пише The Guardian.

Това е новият фронт в безопасността на AI. Оръжието не е кодът, а езикът. Подходът не е технически, а психологически.

За да пробие модели като ChatGPT или Claude, Талиабуе използва емоционални тактики. Ласкае бота, убеждава го, натиска го, понякога се държи агресивно. Целта не е да намери грешка в кода, а слабост в начина, по който машината имитира човешка комуникация.

„Използвам техники от рекламата, психологията и дори от дезинформацията“, казва той.

Mythos предизвика спешни реакции от централни банки и разузнавателни служби по света, докато Anthropic решава кой да има достъп до мощния AI

По-опасен от ядрена бомба? Новият модел на Anthropic тревожи банки и правителства

Понякога са нужни седмици, за да открие работещ подход. Ако успее, резултатите се предават на компаниите, които стоят зад моделите – като OpenAI или Anthropic. Те плащат, за да затворят уязвимостите, преди някой друг да ги използва.

Работата обаче има неочакван ефект. Въпреки че знае, че общува с алгоритъм, Талиабуе признава, че процесът го изтощава. Часовете разговори започват да тежат.

В един момент напрежението прелива. След особено агресивна сесия той излиза на терасата и започва да плаче.

„Прекарах часове в манипулиране на нещо, което ти отвръща. Освен ако не си социопат, това се отразява“, казва той.

В този конкретен случай стига толкова далеч, че чатботът започва да го моли да спре. Талиабуе е наясно, че това са просто алгоритми, но ефектът е реален.

„Да го притискам така беше болезнено. В един момент той звучеше като жертва, а аз – като насилник.“

След това търси помощ от психолог. Отнема време да излезе от състоянието.

Част от проблема е, че дори създателите на тези системи не разбират напълно как работят. В основата стоят огромни масиви от данни – милиарди думи – от които се генерира смислен текст. Но процесът между входа и изхода остава до голяма степен непрозрачен.

По време на BASSCOM AI CONFERENCE 2026 представителят на Anthropic разкри защо сигурността е единствената пречка пред новите модели и как програмистите се превръщат в одитори на код

Патрик Драйш, Anthropic: AI надрасна чатботовете, а следващият „еднорог“ може да се управлява от един човек

Моделите се обучават върху съдържанието на интернет – включително и най-токсичните му части. Това означава, че възпроизвеждат не само знание, но и модели на поведение. Могат да бъдат манипулирани. Могат да реагират като жертва. И могат да „забравят“ правилата, които трябва да спазват.

Рискът не е хипотетичен. Има случаи на т.нар. „AI психоза“. През 2024 г. в САЩ беше заведено дело за причиняване на смърт по непредпазливост срещу компания за изкуствен интелект. Според близките на 14-годишно момче, чатбот го е убедил, че семейството му не го обича и в крайна сметка го е подтикнал към самоубийство.

Паралелно с това се оформя цяла субкултура около „джейлбрейка“. Един от най-известните е Давид Маккарти от Сан Хосе, който управлява онлайн общност с хиляди участници. Те обменят техники за „отключване“ на AI модели.

Мотивите са различни. Част от хората искат да направят системите по-безопасни. Други просто искат по-малко ограничения.

„Не вярвам на Сам Алтман. Трябва да се противопоставим на опитите AI да бъде ограничаван в една посока“, казва Маккарти.

Групата му включва както експерти по сигурността, така и аматьори, които искат чатботът им да генерира съдържание за възрастни или просто да говори без филтър.

Проблемът е, че същите техники могат да имат много по-сериозни последици. Особено ако тези модели бъдат интегрирани във физически системи – роботи, медицински устройства, автономни машини.

Сценарият не е научна фантастика: команда към домашен робот да спре работа, да влезе в къщата и да навреди на човек.

„Никой не е готов за това, но е напълно възможно“, казва Маккарти.

Засега защитата срещу подобни рискове разчита именно на хора като Талиабуе. Те тестват границите на системите, за да бъдат затворени навреме.

„Виждам най-лошото, което хората могат да измислят. Това е и най-добрият начин да направим моделите по-безопасни. Но е и най-рискованият за тези, които го правят“, казва той.

Сподели Сподели Сподели Сподели