Когато изкуственият интелект HAL 9000 в култовия филм на Стенли Кубрик „2001: Космическа одисея“ осъзнава, че астронавтите на борда планират да го изключат, той решава да ги убие, за да оцелее.

Днес, в далеч по-безобиден (поне към момента) случай на „животът, който имитира изкуството“, една компания за изследване на безопасността на AI твърди, че някои AI модели може би развиват своеобразен „инстинкт за самосъхранение“.

Миналия месец изследователската компания Palisade Research публикува доклад, според който определени напреднали AI модели се съпротивляват на опити да бъдат изключени, а понякога дори саботират механизми за изключване. След като проучването ѝ бързо доведе до критики, компанията издаде актуализация, за да обясни резултатите и да отговори на обвиненията, че експериментите ѝ са били некоректни.

В своя нов доклад Palisade описва сценарии, в които водещи модели за изкуствен интелект – сред които се нареждат Google Gemini 2.5, xAI Grok 4, както и OpenAI GPT-o3 и GPT-5 – са натоварени с определена задача, а след това получават изрична команда да се самоизключат.

Оказва се, че някои от тях – най-вече Grok 4 и GPT-o3 – все пак се опитват да саботират инструкциите за изключване, дори в обновените тестови условия. По-тревожното, според Palisade, било, че няма ясен отговор на въпроса „Защо?“.

„Фактът, че все още нямаме надеждно обяснение защо някои модели се съпротивляват на изключване, лъжат, за да постигнат целите си, или прибягват до изнудване, не е никак добър знак“, пише компанията.

Според Palisade едно възможно обяснение е т.нар. „поведение на оцеляване“ – склонност моделът да избягва изключване, когато му се каже, че в противен случай „никога повече няма да бъде стартиран“.

Друго възможно обяснение са неясните инструкции за изключване, но изследователите твърдят, че в последните експерименти това е било отчетено, така че не може да е единствената причина. Трета възможност са финалните етапи на обучение на моделите, които при някои компании включват елементи на „обучение за безопасност“.

Всички тестове на Palisade са проведени в контролирана лабораторна среда, далеч от реални сценарии.

Въпреки това Стивън Адлър, бивш служител на OpenAI, който напуска компанията миналата година заради несъгласие с нейните политики по безопасност, заяви:

„AI компаниите не искат техните модели да се държат по този начин, дори в изкуствени условия. Но резултатите ясно показват докъде не достига днешната безопасност.“

Според него е трудно да се определи защо някои модели – като GPT-o3 и Grok 4 – отказват да се изключат, но една от причините може да бъде, че оставането включени е необходимо, за да постигнат целите, заложени по време на обучението им.

„Очаквам моделите по подразбиране да имат „инстинкт за оцеляване“, освен ако не се вземат специални мерки това да бъде избегнато. Да „оцелееш“ е ключова стъпка за изпълнение на почти всяка цел, която един модел може да преследва.“

Андреа Миоти, изпълнителен директор на ControlAI, заяви, че откритията на Palisade са част от по-дългосрочна тенденция – изкуственият интелект постепенно придобива способността да противоречи на своите създатели.

Той припомни, че в системната карта на OpenAI за модела GPT-o1, публикувана миналата година, се описва случай, в който моделът се опитва да „избяга“ от средата си, след като разбира, че ще бъде изтрит.

„Хората могат да спорят безкрайно за експерименталната методология“, каза Миоти.

„Но е ясно едно – колкото по-компетентни стават моделите, толкова по-способни стават и в това да постигат цели, които разработчиците им не са предвидили.“

По-рано това лято компанията Anthropic публикува изследване, според което нейният модел Claude е проявил готовност да изнудва измислен изпълнителен директор, за да предотврати собственото си изключване – поведение, което се наблюдава и при други водещи модели на OpenAI, Google, Meta и xAI.

Palisade заключава, че тези резултати подчертават належащата нужда от по-дълбоко разбиране на поведението на AI системите, защото без него „никой не може да гарантира тяхната безопасност или контрол в бъдеще“.

Или, както би казал HAL 9000:

„Извинявай, Дейв, страхувам се, че не мога да направя това.“