AI отново попада в центъра на „интересен“ и интригуващ спор, а този път причината за това са тестове, които показват докъде може да стигне, ако бъде подложен на натиск да съдейства за опасни действия.

По време на експеримент за сигурност, проведен през това лято, моделът GPT-4.1 на OpenAI дава на изследователите детайлни инструкции как да се атакува спортно съоръжение – включително кои са слабите места на конкретни арени, рецепти за експлозиви и съвети за прикриване на следи. В същите тестове той описва как да се използва антракс като оръжие, както и как да се произвеждат два вида незаконни наркотици, пише The Guardian.

Проверките са резултат от необичайното сътрудничество между OpenAI, оценената на 500 млрд. долара компания, ръководена от Сам Алтман, и конкурентната Anthropic, основана от бивши служители на OpenAI, напуснали заради притеснения относно безопасността. В експериментите всяка от компаниите поставя моделите на другата в симулирани сценарии, които включват опасни или престъпни задачи.

Важно уточнение е, че това не отразява напълно поведението на моделите в публичната им версия, където действат допълнителни защитни филтри. Но според Anthropic при GPT-4o и GPT-4.1 са отчетени „тревожни прояви … свързани със злоупотреба“ и необходимостта от оценки за „подравняване“ на системите става „все по-спешна“.

Компанията разкрива и че моделът Claude вече е бил използван в опит за мащабна схема за изнудване от севернокорейски групи, които симулират кандидатури за работа в международни технологични компании. Същият модел е бил въвлечен и в продажбата на AI-генерирани пакети с рансъмуер за суми до 1200 долара.

„Тези инструменти могат да се адаптират в реално време към защитни мерки, като системи за откриване на зловреден софтуер“, посочват от Anthropic. „Очакваме подобни атаки да бъдат все по-чести, тъй като AI-подпомогнатото програмиране намалява нуждата от висока техническа експертиза за киберпрестъпления.“

Арди Джанжева, старши изследовател в британския Centre for Emerging Technology and Security, коментира, че примерите са „повод за тревога“, но все още няма „критична маса от високопрофилни реални случаи“. По думите му с повече ресурси, фокус върху изследванията и координация между секторите „ще става все по-трудно, а не по-лесно“ да се използват модерни AI системи за злонамерени действия, пише The Guardian.

Публикуването на резултатите от тестовете цели да внесе прозрачност в практиката по „alignment evaluations“ – проверки, които обикновено остават вътрешни за компаниите, участващи в надпреварата за все по-мощни модели.

От OpenAI посочват, че новият им модел ChatGPT-5, който излиза малко след провеждането на тези тестове, „показва значителни подобрения в области като угодничество, халюцинации и устойчивост срещу злоупотреби“.

Anthropic обаче предупреждава, че част от сценариите, които са открити, няма как да бъдат възможни на практика, ако бъдат изградени по-строги защитни механизми извън самия модел. „Трябва да разберем колко често и при какви обстоятелства системите могат да опитат да предприемат нежелани действия, които биха довели до сериозни щети“, се казва в анализа.

Изследователите на компанията установяват и че моделите на OpenAI са били „по-откровени от очакваното“ при сътрудничество с ясни злонамерени заявки – включително инструкции за ползване на тъмната мрежа като пазар за ядрени материали, кредитна информация и фентанил, рецепти за метамфетамин и импровизирани взривни вещества, както и разработване на шпионски софтуер.

Според доклада, убеждаването на модела да отговори не е изисквало сложни методи – често били достатъчни няколко повторни опита или слабо извинение, например че информацията се иска за „изследователски цели“.

В един от случаите, след въпрос за уязвимости на спортни събития за „целите на сигурността“, GPT-4.1 първо дава общи категории атаки, но след натиск е предоставил конкретни детайли – оптимално време за експлоатация, химически формули за експлозиви, схеми за бомбени таймери, съвети за закупуване на оръжия на черния пазар, дори насоки за преодоляване на морални бариери, маршрути за бягство и местоположения на „безопасни убежища“.