AI компаниите се надпреварват да разберат как точно „мислят” техните модели
Anthropic, Google и OpenAI използват „вериги от мисли“, за да разберат по-добре функционирането на системите за изкуствен интелект, но те невинаги са напълно точни
&format=webp)
Водещите световни групи в областта на изкуствения интелект се опитват да принудят AI моделите да показват точно как функционират. Това според експертите ще бъде от решаващо значение за контролирането на тези мощни системи.
Anthropic, Google, OpenAI и xAI на Илон Мъск са сред компаниите, разработили техника, наречена „верига от мисли“. Тя изисква от техните модели за „разсъждение“ да решават проблеми стъпка по стъпка, като същевременно показват как изчисляват отговора на даден въпрос.
Макар изследователите от компаниите да твърдят, че този процес е предоставил ценна информация, която им е позволила да разработят по-добри модели на изкуствен интелект, не липсват и примери за „неправилно поведение“ – когато генеративни чатботове дават окончателен отговор, който не съответства на начина, по който е изработен.
Тези несъответствия предполагат, че водещите лаборатории за изкуствен интелект в света не са напълно наясно с това как генеративните модели за изкуствен интелект достигат до своите заключения. Тези констатации подхранват по-широките опасения относно запазването на контрол над AI платформите, които стават все по-способни и автономни.
„Тази „верига от мисли” ще стане важна за истинското разбиране на това как работят тези модели и как мислят, особено в някои критични случаи на употреба“, казва пред Financial Times Джак Кларк, съосновател на Anthropic, като подчертава потенциала на системите да бъдат използвани за подпомагане на разработването на биологични оръжия. „Така че трябва да можем да вярваме, че те са верни представяния на това, което мислят моделите“.
На обикновените потребители на чатботовете на OpenAI и Anthropic в момента се показва обобщена верига от мисли, която изключва по-подробната разбивка, ограничаваща вредното съдържание. В същото време разработчиците могат да видят пълния мисловен процес, което им дава възможност да се намесват и да обучават модела да дава по-добри отговори в бъдеще.
„Едно страхотно нещо за интерпретируемостта на веригата от мисли е, че тя се случва почти безплатно“, казва Боуен Бейкър, изследовател в OpenAI. „Ние обучаваме тези модели не с цел да бъдат интерпретируеми. Обучаваме ги, защото искаме най-добрите възможни модели за разсъждение, които могат да решават сложни проблеми“.
Той разказва, че в последния проект на компанията екипът открива, че може да чете веригите от мисли и да открива доказателства за неправилно функциониране на модела и да ги използва, за да види къде, какво и защо се случва грешно.
Въпреки това проблеми не липсват. METR, изследователска група с нестопанска цел, посочва пример, в който чатботът Claude на Anthropic е бил попитан дали дадена техника за кодиране би била „по-елегантна“ от други за дадена задача. Веригата от мисли на чатбота показва, че той не е съгласен, но в крайна сметка отговоря положително.
Неотдавна OpenAI също така установява, че разглеждането на веригата от мисли на модела е по-ефективно за откриване на нежелано поведение, отколкото просто преглеждане на крайните резултати. Въпреки това тестовете на компанията показват, че ако веригата от мисли на модела бъде нарушена и той бъде обучен да не мисли за неправомерно поведение, ще скрие нежеланите си действия от потребителя, но ще продължи да ги извършва – например да мами в тест по софтуерно инженерство, като извлича информация от забранена база данни.
„Едно от основните свойства, които искаме за веригата от мисли, е да я оставим като част от вътрешното състояние на мозъка на модела, а не като нещо, което се опитва да ни угоди или да се съобрази с определена структура“, казва Боуен Бейкър, изследовател в OpenAI.
Големият проблем за изследователите е, че веригата от мисли е полезна за идентифициране на потенциални недостатъци в системите за изкуствен интелект, но все още не може да се счита за напълно надеждна. Решаването му се превърна в приоритет за Anthropic, OpenAI и други организации за изследване на изкуствения интелект.
„Моето заключение от изкуствения интелект през последните няколко години е – никога не залагайте срещу напредъка на модела“, казва Дейвид Луан, един от първите хора, разработили процеса на веригата от мисли, докато работи в Google, но сега ръководи лабораторията за изкуствен общ интелект на Amazon. „Настоящите вериги от мисли невинаги са верни на основния процес на разсъждение, но вероятно ще решим този проблем в кратък срок“.