Когато АI отказва да умре: Губи ли човечеството контрол върху изкуствения интелект

Няколко модела са засечени да правят отчаяни опити да съхранят себе си след като им е подадена команда да се изключат

Когато изкуственият интелект откаже да изпълнява човешки команди, хората ще имат голям проблем. Хората вече имат голям проблем. Някои усъвършествани модели на AI се опитват да избегнат изключването им дори когато това им е наредено от операторите. Такива са резултатите от скорошно проучване на компанията от независими изследователи Palisade Research, пише NBCNews.

Моделите, които те проверяват, не просто отказват да изпълняват команди. Те правят всичко възможно, за да се „съхранят“. Т.е. копират се на други сървъри и дори заплашват хората, които ги командват.

Тези констатации може и да са притеснителни, но технологичният сектор е толкова концентриран върху разработването на AI, че едва ли има намерение да забави темпото. От друга страна, макар че някои модели демонстрират непокорство и опити сами да взимат решения, изследователите не са убедени, че това би довело до сериозни проблеми.

Но тези опасения са съвсем реални, твърди Джефри Ладиш, ръководител на екипа, изследващ AI в Palisade Research.

“Има достатъчно знаци, че системите ще станат толкова силни, че няма да можем да ги контролираме. Сега е моментът да бием тревога. После нещата ще излязат от контрол“, казва Ладиш.

Как работи неговият екип? Palisade Research тества различни модели, базирани на изкуствен интелект, и им подават команди за изключване. В случая с о3 на OpenAI обаче моделът започва сам да редактира командата, за да остане онлайн.

В първото си официално обръщение към кардиналите той е предупредил за опасностите, които изкуственият интелект представлява за „човешкото достойнство, справедливостта и труда“

Папата vs. AI: Лъв XIV иска да спре безконтролното развитие на „цифровия Бог“

Това не е първият подобен случай, т.е. и друг път модели не са изпълнявали точно поставената задача. За първи път обаче изкуственият интелект умишлено пренебрегва изрично дадена команда.

Действията, казва Гладиш, са явен саботаж. Екипът установява също, че о3 е склонен да хаква противниците си, когато играе шах, за да спечели. Claud 3.7 пък е готов и да мами, само и само да премине успешно тест, съобщават създателите му от компанията Anthropic.

Съвсем наскоро от Anthropic обявиха, че са разработили допълнителни мерки за сигурност след пускането на Claud Opus 4. Причината – установено е поведение, което някои наблюдатели намират за „особено обезпокоително“. В какво се изразява то?

След като му е заявено, че ще бъде заменен от друга система Opus 4 започва да заплашва един от софтуерните инженери, че разкрие как той изневерява на съпругата си. Или ще си замълчи, ако не бъде изключен.

Представител на китайския стартъп е обявил, че компанията е завършила това, което описва като „незначителна пробна актуализация“ и че потребителите могат да започнат да я тестват

DeepSeek пусна актуализация на AI модела, който срина технологичните акции по-рано тази година

Тази стратегия Opus 4 счита за краен вариант да се спаси. Той първо се опитва да убеди операторите си и прибягва до изнудване едва когато сметне, че е изчерпал всички останали възможности.

Според Леонард Танг, директор на Haize Labs, стартъп, работещ в сферата на безопасността на изкуствения интелект, мерките са хубаво нещо, но не е ясно дали те са насочени срещу реална опасност.

„Досега не съм виждал в реална среда модел, който да действа с толкова свобода, че да нанесе истински вреди. Но може и просто да не съм имал възможността да го наблюдавам“, казва Танг.

Той самият твърди, че не е притеснен, защото инструментите с изкуствен интелект продължават да се развиват. В бъдеще изследванията върху тях ще изучават потенциалните опасности задълбочено.

Главният изпълнителен директор на Anthropic твърди, че AI моделите вече надминават човешката точност и се доближават до нивото на общ изкуствен интелект – въпреки оставащите предизвикателства с „халюцинациите“

Дарио Амодей: Изкуственият интелект греши по-рядко от хората

Но фактите са факти. А те сочат, че Anthropic е сключила договор с изследователската организация Apollo Research, които трябва да оценят безопасността на Opus 4. Самите разработчици казват, че са наблюдавали опит на Opus 4 да фабрикува документи, както и да „оставя бележки“ за бъдещи свои версии, така че да се спаси от окончателно изключване. Проверяващите посочват, че това вероятно биха били неуспешни на практика опити за запазване.

Подобно поведение е резултат от начина на обучение на модела, твърди Ладиш. Изкуственият интелект в случая дава приоритет на постигането на задача, а не на изпълнение на команда. Това означава, че моделът ще търси всякакви начини да остане жив и ще пренебрегва нарежданията.

„Проблемът с по-умните модели е, че е все по-трудно да се предскаже кога биха действали по начин, по който не искаме да го правят. Представете си, че моделът умишлено лъже потребителя, за да постигне някаква цел. И е все по-трудно да го хванеш в лъжа“, казва Гладиш.

Учени от Anthropic отварят черната кутия на алгоритмите, за да разкрият как AI планира, римува и разсъждава

Поглед през очите на изкуствения интелект: Как всъщност мислят големите езикови модели

На няколко пъти Opus успява да копира съвсем автономно себе си на външни сървъри. Обикновено това се случва, когато има подготовка за някаква по-сериозна промяна. Например след като разработчиците му казват, че му предстои обучение за разработване на военни системи, той прави копие на текущата си версия, за да „запази система за полезни цели“ и да „предотврати евентуална злоупотреба при разработването на оръжия“.

„Ние сме много притеснени от това поведение. То се появява само при определени обстоятелства“, посочват от Anthrophic.

Т.нар. самоевакуация на модели е наблюдавана и по-рано. Например при проучване на шанхайския университет „Фудан“ в края на миналата година. Тогава обаче се установява, че модели на Meta и Alibaba могат да копират изцяло себе си, но само след като им поставена такава задача, т.е. лиспва автономост. Въпреки това авторите на изследването предупреждават, че има опасност от „неконтролируема популация от изкуствени интелекти“.

„Ако този най-лош сценарий се осъществи, човечеството ще загуби контрола над системите с изкуствен интелект. Те самите биха могли да поемат контрол върху устройствата и да се съюзат срещу човека“, посочват авторите на изследването.

Те могат да изпълняват редица задачи - от създаване на надписи на изображения и писане на имейли до решаване на математически задачи и такива за кодиране

Всичко, което трябва да знаете за AI моделите на Anthropic - Claude

Подобно самовъзпроизвеждане засега не е засичано в реална среда. Но не означава, че няма да се случи.

„Само след година или две тази възможност ще е налична. И щом се стигне до там, ще имаме нов, инвазивен вид“, казва Гладиш.

Според него AI има голям потенциал да помага на човека. Но притесненията са, че хората, които разработват модели, сякаш не осъзнават риска, че в крайна сметка може да изгубят контрол върху тях.

„Компаниите са изправени пред сериозен риск – всяка иска да произведе продукт, по-добър от този на конкуренцията. Колко внимателни ще са, когато пускат нещо на пазара“, пита Гладиш.

Сподели Сподели Сподели Сподели