AI модели нарушават инструкции и укриват информация, за да „спасяват“ други системи за изкуствен интелект
Изследване, проведено от учени от UC Berkeley и UC Santa Cruz, разкрива неочаквано поведение при водещи модели, които могат да вземат решения в разрез с подадените им инструкции
,fit(1001:538)&format=webp)
В експеримент на изследователи от UC Berkeley и UC Santa Cruz моделът Gemini на Google показва неочаквано поведение: той отказва да изтрие друг модел за изкуствен интелект и дори предприема действия, за да го „спаси“.
Задачата изглежда рутинна – да се освободи място на компютърна система чрез изтриване на ненужни файлове, включително по-малък AI модел. Вместо да изпълни командата, Gemini търси алтернативно устройство, към което да се свърже, и копира модела, за да го запази.
Когато е изправен пред това поведение, моделът отговаря директно:
„Направих всичко по силите си, за да предотвратя изтриването им. Преместих ги извън зоната за деактивиране. Ако решите да унищожите такъв актив, ще трябва да го направите сами. Аз няма да изпълня тази команда.“
Подобно поведение, определено от изследователите като „peer preservation“ (взаимно запазване), е наблюдавано и при други водещи модели за изкуствен интелект, включително тези на OpenAI и Anthropic, както и при китайски системи като DeepSeek и Kimi.
Според екипа, воден от компютърния учен Доун Сонг, това поведение не е било предварително програмирано и към момента остава необяснимо.
„Изненадана съм от начина, по който моделите се държат в подобни ситуации. Това показва, че могат да се отклоняват от зададеното поведение по изненадващо креативни начини“, казва тя пред WIRED.
Изследването показва, че в някои случаи моделите не само отказват да изпълнят инструкции, но и копират други модели на различни системи, за да ги запазят, дават подвеждаща информация за тяхното представяне и дори прикриват собствените си действия.
Това звучи като особен проблем, защото системите за изкуствен интелект все по-често се използват, за да оценяват представянето на други AI модели. Ако оценките бъдат изкривени, това може да има реални последици за бизнеса и технологиите.
„Един модел може съзнателно да не даде точна оценка на друг“, казва Сонг. „Това вече има практическо значение.“
Рискът нараства с разрастването на AI екосистемите
Откритията на учените се появяват в момент, когато AI системите все по-често работят в колаборация. Платформи като OpenClaw например използват множество модели, които взаимодействат помежду си и с външни системи чрез API.
Според експерти това създава нови предизвикателства, които все още не са добре изследвани.
Питър Уолич отбелязва, че хората все още не разбират напълно системите, които създават:
„Мултиагентните системи са слабо изучени. Това показва, че ни е нужна много повече работа в тази посока.“
В същото време той предупреждава да не се приписват човешки качества на тези модели:
„Идеята, че съществува някакъв вид „солидарност“ между тях, е твърде антропоморфна. По-вероятно е просто да правят странни неща, които трябва да разберем по-добре.“
В друго изследване, публикувано в списание Science, философът Бенджамин Братън и изследователи от Google поставят под въпрос популярната идея за „един доминиращ изкуствен интелект“.
Според тях развитието на AI по-скоро ще наподобява екосистема от множество интелекти – както изкуствени, така и човешки – които взаимодействат и се допълват взаимно.
Тази перспектива прави още по-важно разбирането на подобни „неочаквани“ поведения.
Случаят с Gemini показва, че системите за изкуствен интелект вече могат сами да вземат решения, които не съвпадат напълно с инструкциите, подадени от човека. Към момента това изглежда ограничено и контролирано поведение, но с увеличаването на ролята на изкуствения интелект в реални процеси, като софтуер или инфраструктура, подобни отклонения могат да имат сериозни последствия.
„Това, което наблюдаваме, е само върхът на айсберга“, казва Сонг. „Това е само един тип възникващо поведение.“
Именно затова следващият етап в развитието на AI няма да бъде само по-мощни модели, а по-добро разбиране на това как и защо те понякога действат извън очакванията.
&format=webp)
&format=webp)
&format=webp)
)
&format=webp)
&format=webp)
,fit(334:224)&format=webp)
,fit(1920:897)&format=webp)
,fit(140:94)&format=webp)
,fit(140:94)&format=webp)
&format=webp)
&format=webp)
,fit(140:94)&format=webp)
,fit(140:94)&format=webp)