Големите езикови модели, които стоят зад ChatGPT, Gemini, както и други AI инструменти, всъщност са толкова добри, защото са… големи. Много големи.

Тук говорим за стотици милиарди параметри – миниатюрни настройки, които се обучават, за да откриват смисъла в огромни масиви от текст. Колкото повече са параметрите, толкова по-силен, точен и „умен“ е моделът, пише WIRED.

Това знание обаче си има цена.

Само обучението на модела Gemini 1.0 Ultra на Google струва колосалните 191 милиона долара.

Освен това, всеки път, когато задаваме въпрос на модел като ChatGPT, той изразходва около 10 пъти повече енергия от обикновено търсене в Google, сочи проучване на Electric Power Research Institute.

Това е и причината, поради която водещи компании като IBM, Google, Microsoft и OpenAI започват да мислят в по-тесен мащаб.

Така се появяват SLMs – малки езикови модели, които идват с едва няколко милиарда параметри. Те не се съревновават с големите си братя за титлата „всестранен гений“, но пък отлично се справят с някои специфични задачи – като обобщаване на разговори, помощ в здравни чатботове или събиране на данни чрез смарт устройства.

„За много ежедневни задачи един 8-милиарден модел е напълно достатъчен“, казва Зико Колтър, компютърен специалист от Carnegie Mellon University. А и най-хубавото е, че тези модели могат да вървят на лаптоп или дори на по-малко устройство като телефон или часовник, без да се налага да се включват към сървъри с мащабите на малка държава.

Как обаче се тренират тези „мини чудовища“?

С няколко трика, естествено. Големите модели обикновено се учат от необработени и често хаотични данни от интернет, но веднъж обучени, те могат да създадат изчистен, висококачествен набор от данни, който след това да се използва за обучение на малкия модел.

Тази техника носи името knowledge distillation, като чрез нея големият модел се превръща в учител, а малкият – в ученик.

Друг подход, който разработчиците използват, е pruning – нещо като дигитално подстригване на голям модел, при което се премахват излишните или неефективни връзки. Вдъхновението тук идва от човешкия мозък, който с възрастта също „рязко“ оптимизира връзките си.

Още през 1989 г. легендата Ян Льокун предлага, че до 90% от параметрите могат да се изрежат без загуба на ефективност – и нарича този метод с много подходящо название – optimal brain damage.

За изследователите това е перфектната възможност – с по-малки модели те могат да експериментират, без да харчат милиони. А и с по-малко параметри често е доста по-лесно реално да се проследи как и защо един модел стига до определен отговор.

Големите модели продължават да са по-добри в полета като генеративни чатботове, създаване на изображения и откриване на лекарства. Но за много потребители малкият, таргетиран модел ще бъде напълно достатъчен, защото е по-бърз, по-евтин и по-екологичен.

„Тези ефективни модели пестят пари, време и ресурси“, обобщава Лешем Чошен от MIT-IBM Watson AI Lab. И в един свят, в който изкуственият интелект става все по-достъпен, малките модели скоро може би ще бъдат големият хит.