AI компаниите търсят големи приходи от малки езикови модели
Microsoft, Meta и Google пуснаха нови версии с по-малко параметри, които са по-евтини за създаване и обучение
Компаниите за изкуствен интелект, които похарчиха милиарди долари за изграждане на т.нар. големи езикови модели, за да захранват AI инструментите си, сега залагат на нов начин за увеличаване на приходите - малки езикови модели.
Apple, Microsoft, Meta и Google наскоро пуснаха нови модели на изкуствен интелект с по-малко "параметри" - броят на променливите, използвани за обучението на системата и формирането на нейния резултат - но все пак с мощни възможности, пише Financial Times.
Тези стъпки са опит на технологичните групи да насърчат приемането на AI от предприятията, които се притесняват от разходите и изчислителната мощ, необходими за управлението на големи езикови модели - видът технология, която е в основата на популярни чатботове като ChatGPT на OpenAI.
Като цяло, колкото по-голям е броят на параметрите, толкова по-добра е работата на софтуера за изкуствен интелект и толкова по-сложни и детайлни могат да бъдат неговите задачи. Най-новият модел GPT-4o на OpenAI и Gemini 1.5 Pro на Google, се оценяват от разработчиците си на над 1 трлн. параметри, а Meta обучава версия с 400 млрд. параметри на своя модел с отворен код Llama.
Освен че някои корпоративни клиенти трудно се убеждават да плащат големите суми, необходими за използването на продукти с генеративен изкуствен интелект, съществуват и опасения относно данните и авторските права.
Това накара технологични групи като Meta и Google да представят малки модели с едва няколко милиарда параметри като по-евтини, енергийно ефективни, персонализирани алтернативи, които също така могат да защитават чувствителни данни.
"Като имате толкова високо качество на по-ниска цена, вие всъщност давате възможност на клиентите да използват много повече приложения и да правят неща, за които не е имало достатъчно възвръщаемост на инвестицията, за да оправдаят това", казва пред FT Ерик Бойд, корпоративен вицепрезидент на Azure AI Platform на Microsoft.
Google, Meta, Microsoft и френският стартъп Mistral също пуснаха малки езикови модели, които показват напредък в технологията и могат да бъдат по-фокусирани върху конкретни приложения.
Ник Клег, президент по глобалните въпроси на Meta, казва пред FT, че новият модел Llama 3 с 8 млрд. параметри е сравним или дори по-ефективен от GPT-4. "Мисля, че по почти всички показатели, за които можете да се сетите, виждате по-добри резултати", посочва той.
От своя страна Microsoft заяви, че нейният модел Phi-3-small със 7 млрд. параметри превъзхожда GPT-3.5, по-ранната версия на модела на OpenAI.
Малките модели могат да обработват задачи локално на устройството, а не да изпращат информация в облака, което може да се хареса на клиентите, които са загрижени за неприкосновеността на личния живот и искат да гарантират, че информацията се съхранява във вътрешните мрежи.
Шарлот Маршал, управляващ съдружник в Addleshaw Goddard, адвокатска кантора, която консултира банки, коментира пред FT, че "едно от предизвикателствата, с които се сблъскват много наши клиенти при приемането на генеративни продукти с изкуствен интелект, е спазването на регулаторните изисквания за обработка и прехвърляне на данни".
Тя казва, че по-малките модели предоставят "възможност на предприятията да преодолеят правните и финансовите проблеми".
По-малките модели също така позволяват функциите на AI да работят на устройства като мобилни телефони. Моделът "Gemini Nano" на Google е вграден в най-новия ѝ смартфон Pixel, както и в най-новия S24 на Samsung.
Apple намекна, че също разработва модели, които да работят в iPhone. Миналия месец гигантът от Силициевата долина пусна своя OpenELM - малък модел, който е предназначен за изпълнение на текстови задачи.
Главният изпълнителен директор на OpenAI Сам Алтман заяви през ноември, че базираният в Сан Франциско стартъп предлага на клиентите си различни по размер модели с изкуствен интелект, които "служат за отделни цели", и ще продължи да създава и продава тези варианти.
Въпреки това Алтман добави, че OpenAI ще остане фокусирана върху изграждането на по-големи модели с увеличени възможности, включително способността да разсъждават, планират и изпълняват задачи и евентуално да достигнат нивото на човека.