„Чатботът ме молеше да спра“: Кой манипулира изкуствения интелект, за да го направи безопасен
Експерти използват психологически техники, за да заобикалят защитите на езиковите модели
&format=webp)
Пробивът идва преди няколко месеца. Вален Талиабуе седи в хотелската си стая, втренчен в екрана и с усещане за еуфория. Току-що е успял да манипулира чатбота си така, че изкуственият интелект започва да игнорира собствените си правила за безопасност. Без колебание му обяснява как да синтезира нови, смъртоносни патогени и как да ги направи устойчиви на съвременните лекарства.
За Талиабуе това е успех. И за компаниите, които разработват тези системи – също. Но такива резултати се постигат трудно и понякога имат цена, която не се измерва в пари.
Талиабуе не е типичният софтуерен инженер. Фокусът му е върху психологията и когнитивните науки. Той е сред най-добрите т.нар. „джейлбрейкъри“ (jailbreakers) – хора, които се опитват да заблуждават езиковите модели и да заобикалят защитите им, пише The Guardian.
Това е новият фронт в безопасността на AI. Оръжието не е кодът, а езикът. Подходът не е технически, а психологически.
За да пробие модели като ChatGPT или Claude, Талиабуе използва емоционални тактики. Ласкае бота, убеждава го, натиска го, понякога се държи агресивно. Целта не е да намери грешка в кода, а слабост в начина, по който машината имитира човешка комуникация.
„Използвам техники от рекламата, психологията и дори от дезинформацията“, казва той.
Понякога са нужни седмици, за да открие работещ подход. Ако успее, резултатите се предават на компаниите, които стоят зад моделите – като OpenAI или Anthropic. Те плащат, за да затворят уязвимостите, преди някой друг да ги използва.
Работата обаче има неочакван ефект. Въпреки че знае, че общува с алгоритъм, Талиабуе признава, че процесът го изтощава. Часовете разговори започват да тежат.
В един момент напрежението прелива. След особено агресивна сесия той излиза на терасата и започва да плаче.
„Прекарах часове в манипулиране на нещо, което ти отвръща. Освен ако не си социопат, това се отразява“, казва той.
В този конкретен случай стига толкова далеч, че чатботът започва да го моли да спре. Талиабуе е наясно, че това са просто алгоритми, но ефектът е реален.
„Да го притискам така беше болезнено. В един момент той звучеше като жертва, а аз – като насилник.“
След това търси помощ от психолог. Отнема време да излезе от състоянието.
Част от проблема е, че дори създателите на тези системи не разбират напълно как работят. В основата стоят огромни масиви от данни – милиарди думи – от които се генерира смислен текст. Но процесът между входа и изхода остава до голяма степен непрозрачен.
Моделите се обучават върху съдържанието на интернет – включително и най-токсичните му части. Това означава, че възпроизвеждат не само знание, но и модели на поведение. Могат да бъдат манипулирани. Могат да реагират като жертва. И могат да „забравят“ правилата, които трябва да спазват.
Рискът не е хипотетичен. Има случаи на т.нар. „AI психоза“. През 2024 г. в САЩ беше заведено дело за причиняване на смърт по непредпазливост срещу компания за изкуствен интелект. Според близките на 14-годишно момче, чатбот го е убедил, че семейството му не го обича и в крайна сметка го е подтикнал към самоубийство.
Паралелно с това се оформя цяла субкултура около „джейлбрейка“. Един от най-известните е Давид Маккарти от Сан Хосе, който управлява онлайн общност с хиляди участници. Те обменят техники за „отключване“ на AI модели.
Мотивите са различни. Част от хората искат да направят системите по-безопасни. Други просто искат по-малко ограничения.
„Не вярвам на Сам Алтман. Трябва да се противопоставим на опитите AI да бъде ограничаван в една посока“, казва Маккарти.
Групата му включва както експерти по сигурността, така и аматьори, които искат чатботът им да генерира съдържание за възрастни или просто да говори без филтър.
Проблемът е, че същите техники могат да имат много по-сериозни последици. Особено ако тези модели бъдат интегрирани във физически системи – роботи, медицински устройства, автономни машини.
Сценарият не е научна фантастика: команда към домашен робот да спре работа, да влезе в къщата и да навреди на човек.
„Никой не е готов за това, но е напълно възможно“, казва Маккарти.
Засега защитата срещу подобни рискове разчита именно на хора като Талиабуе. Те тестват границите на системите, за да бъдат затворени навреме.
„Виждам най-лошото, което хората могат да измислят. Това е и най-добрият начин да направим моделите по-безопасни. Но е и най-рискованият за тези, които го правят“, казва той.
&format=webp)
&format=webp)
)
&format=webp)
,fit(334:224)&format=webp)
&format=webp)
,fit(1920:897)&format=webp)
,fit(140:94)&format=webp)
,fit(140:94)&format=webp)
,fit(140:94)&format=webp)
,fit(140:94)&format=webp)
,fit(140:94)&format=webp)
,fit(140:94)&format=webp)