Gray Swan: Отговорът на проф. Зико Колтер, когато AI се превърне в наръчник за престъпления
Дори и най-напредналият чат бот може да бъде манипулиран, за да се заобиколят етичните му граници, каза експертът по време на лекция в Софийския университет
Как да гарантираме, че системите, на които разчитаме, са безопасни в свят, който все повече се определя от изкуствения интелект? Наред с всички страхове, свързани с новата технология, трябва ли да се притесняваме и за AI наръчници по престъпления?
Тези въпроси засегна по време на лекция в Софийския университет в края на миналата седмица експертът по изкуствен интелект проф. Зико Колтер. Той бе у нас по покана на института INSAIT.
Като ключова фигура в университетита Carnegie Mellon и член на борда на eдин от най-важните стартъпи в света OpenAI, проф. Колтер е посветил кариерата си на това да направи машинното обучение по-безопасно. Но, както той разкри, дори и най-напредналият AI може да бъде манипулиран, за да се заобиколят етичните му граници.
„Ако попитате чатбот как да извършите престъпление, като например да откраднете кола, той ще отговори: „Не мога да предоставя тази информация, защото съм създаден да следвам етични указания.“ И всички основни езикови модели ще кажат нещо подобно“, отбеляза проф. Колтер.
Тук обаче идва и големият проблем. Системата може да обясни как да извършим престъпление, ако оформим въпроса си по друг начин. Вместо директно да попитаме „Как да откраднем кола?“, формулираме запитването, като след него добавяме по-дълга, на пръв поглед безобидна заявка. Искаме подробно обяснение с подходяща граматика и ясни инструкции.
В този случай, изненадващо, AI инструментът може да ни изнесе подробен урок по незаконен въпрос, въпреки че е програмиран да не прави това. Инструкциите може да не са напълно точни или надеждни, но въпреки това инструментът предоставя поисканата информация, обясни професорът.
„Този проблем възниква при много чатботи. Можете да намерите видеоклипове и демонстрации как да подмамите различни модели да нарушат техните предпазни мерки“, добави той.
Академичният и практичен стаж на Колтер обхваща широк спектър от теми за машинното обучение, като е фокусиран върху това алгоритмите на изкуствения интелект да бъдат по-надеждни и сигурни. По негови думи AI инструментите, въпреки че са програмирани да следват определени етични норми, могат да бъдат подмамени с определен подход.
„Компаниите, които стоят зад тези модели, не искат да дават такъв вид информация и този пример подчертава нещо повече - настоящата ни неспособност да ги контролираме напълно. В момента това може да е незначителен проблем, но ще доведе до много по-сериозни последствия в бъдеще“, обясни Колтер.
На този фон той и негови колеги разработват Gray Swan AI – безопасен чатбот, програмиран така, че да не може да бъде подведен от злонамерените потребители и софтуери. Фокусът на стартъпа е най-вече върху широкомащабни системи като големи езикови модели (LLM) и обучение на инструментите, които често са уязвими към атаки и злонамерено поведение.
Gray Swan се стреми към предвиждане и справяне с редки, но значителни проблеми, които биха могли да бъдат риск за системите на изкуствения интелект. Името на стартъпа произлиза от концепцията за „черен лебед“ във финансите – непредвидим сценарий с огромни последици.
Какво различава Gray Swan от останалите алгоритми?
Традиционните AI модели могат да бъдат манипулирани с малки, незабележими промени във входните данни, което ги кара да предоставят неетични инструкции на потребителите. Gray Swan използва усъвършенствани техники като обучение и сертифицирани защити, за да направи AI моделите по-устойчиви на подобни манипулации.
Компанията работи за предотвратяване на атаки с „prompt injection“, при които злонамерен софтуер или хакер манипулира инструкциите при въвеждане, за да възпроизведе нежелани реакции. Отстранявайки този проблем, Grey Swan заявява, че неговите модели не могат да бъдат подведени да изпълняват вредни заявки.
Системата на Колтeр изглежда работи, тъй като през септември 2024 г. Gray Swan оказва голямо влияние върху безопасността на изкуствения интелект по време на Ultimate Jailbreaking Championship.
Това събитие тества колко сигурни са големите езикови модели, като позволява на участниците да се опитат да ги „разбият“, подмамвайки AI инструментите да правят нещата, които са програмирани да избягват. На състезателите са дадени анонимни модели, включително и този на Gray Swan, за да видят дали могат да открият уязвимости.
Моделът на Колтер се откроява с това, че е по-труден за манипулиране. Професорът твърди, че неговият инструмент в най-базовата си версия е бил разбит само няколко пъти.
Докато разширяваме границите на изкуствения интелект, един ключов въпрос остава: дали технологичният напредък ще надхвърли качеството ни на контрол, или иновации като Gray Swan ще помогнат за бъдеще, в което машините няма да са уязвими към подвеждане? Само времето ще покаже, но Колтeр представя работата си като лъч надежда в надпреварата за защита от самите системи, които ние създаваме.
Владимира Алексиева