Anthropic отваря "черната кутия" на моделите с изкуствен интелект
Механичната интерпретация може да доведе до напредък в създаването на безопасни и безпристрастни AI модели
Съвременните модели на изкуствен интелект са толкова големи и сложни (създадени по подобие на човешкия мозък), че дори докторите на науките, които ги проектират, знаят сравнително малко как те "мислят".
Доскоро познанието за "механичната интерпретация" беше предимно теоретично и в малък мащаб. Но тази седмица Anthropic публикува изследване, което показва реален напредък.
По време на обучението си LLM обработва огромно количество текст и формира многоизмерна карта на думите и фразите въз основа на техните значения и контекста, в който са използвани. След като моделът влезе в употреба, той се основава на тази "карта", за да изчисли статистически най-вероятната следваща дума в отговор на подкана от потребителя.
Изследователите могат да видят всички изчисления, които водят до даден резултат, казва Джош Батсън, изследовател на интерпретативността на Anthropic, но числата не казват много за това "как мисли моделът", допълва той, цитиран от Fast Company.
Целта на изследователите от Anthropic е да научат повече за концепциите, които AI големите модели използват, за да организират думите в подходящи отговори.
Батсън смята, че екипът му се е научил как да прекъсва модела по средата на обработката на сигнал и да прави снимка на вътрешното му състояние. Така може да се установ кои неврони в мрежата работят едновременно в отговор на едни и същи видове думи в подкана.
В хода на работата, те започват да идентифицират други понятия.
"Научихме се да разпознаваме милиони концепции от вътрешността на модела и можем да разберем кога той използва всяка от тях", разказва Батсън. Първо изпробва методите си върху малък и прост модел, а последните осем месеца изследва как тези методи да работят върху голям LLM, в този случай Claude Sonnet 3 на Anthropic.
С възможността да интерпретират това, за което мисли моделът в средата на процеса, изследователите може да имат възможност да отклонят AI от лоши резултати като пристрастия, дезинформация или насоки за създаване на биологично оръжие, например.
Ако прекъснат обработката на даден вход от LLM и инжектират сигнал в системата, това може да повлияе и да промени посоката на процеса към по-желани резултати.
Компаниите, занимаващи се с изкуствен интелект, полагат много усилия, за да отклонят моделите от вредни изходи, но те разчитат главно на итеративен процес на промяна на подканите (входовете) и проучване как това се отразява на полезността или безопасността на изхода.
Те решават проблемите отвън навътре, а не отвътре навън.
Anthropic, която е основана от група ръководители на OpenAI, загрижени за безопасността, разработва средство за целенасочено въздействие върху процеса с внасяне на данни, за да насочи модела в по-добра посока.
Междувременно, тази седмица Scale AI, която се самоопределя като "леярна на AI данни", обяви, че е набрала 1 млрд. долара, с което оценката на компанията достигна 14 млрд. долара. Кръгът беше ръководен от компанията за рисков капитал Accel с участието на множество известни играчи в сферата като Y Combinator, Index Ventures, Founders Fund, Nvidia и Tiger Global Management. Сред новите инвеститори са Cisco Investments, Intel Capital, AMD Ventures, Amazon и Meta.
С нарастването на въодушевлението около генеративния AI, нарасна и осъзнаването, че моделите са толкова добри, колкото данните, върху които са обучени. Мащабът е от полза и за двете.
Компанията от Сан Франциско работи върху генерирането на добре анотирани данни за обучение на модели на AI много преди появата на ChatGPT. Scale е разработила техники за синтетични данни за обучение, както и данни, които са анотирани с помощта на експерти.
Scale, която е работила интензивно с агенции в областта на отбраната и разузнаването, планира да използва новия капитал, за да изпомпва повече данни за обучение на AI. Тя планира и надграждане на предишната си работа в помощ на компаниите за оценка на техните модели на AI, допълва Fast Company.