Как AI компаниите преодоляват ограниченията на настоящите модели
Големите лаборатории се сблъскват със забавяния и разочароващи резултати в надпреварата за пускане на голям езиков модел, който да надмине GPT-4
Компаниите за изкуствен интелект се опитват да преодолеят неочакваните забавяния и предизвикателства в стремежа си към все по-мащабни големи езикови модели (LLM). Те разработват техники за обучение, които използват по-подобни на човешките начини за „мислене“ на алгоритмите.
Учени, изследователи и инвеститори в областта на изкуствения интелект коментират пред Reuters, че тези техники, които стоят в основата на наскоро публикувания модел o1 на OpenAI, могат да променят надпреварата в областта на AI и да окажат влияние върху ресурсите, за които компаниите имат неутолимо търсене - от енергия до видове чипове.
След пускането на ChatGPT преди две години технологичните компании, чиито оценки се възползваха значително от бума на AI, твърдяха, че „увеличаването“ на настоящите модели чрез добавяне на повече данни и изчислителна мощ ще доведе до последователно подобряване на моделите. Сега обаче някои от най-изтъкнатите учени в областта говорят за ограниченията на тази философия „по-голямото е по-добро“.
Иля Суцкевер, съосновател на лабораториите за изкуствен интелект Safe Superintelligence (SSI) и OpenAI, посочва наскоро, че резултатите от увеличаването на предварителното обучение - фазата на създаване на един модел, която използва огромно количество немаркирани данни - са достигнали своя връх. Той е широко признат като ранен защитник на постигането на огромни скокове в развитието на генеративния AI чрез използването на повече данни и изчислителна мощ в предварителното обучение, което в крайна сметка създаде ChatGPT.
„Миналото десетилетие беше епохата на мащабирането, а сега отново се връщаме в тази на чудесата и откритията. Всички търсят следващото нещо“, казва Суцкевер пред Fast Company. „Мащабирането на правилното нещо е по-важно от всякога.“
Източници на медията казват, че изследователите от големите лаборатории за изкуствен интелект се сблъскват със забавяния и разочароващи резултати в надпреварата за пускане на голям езиков модел, който да надмине GPT-4 на OpenAI. А той е на почти две години. Т.нар. „тренировъчни серии“ за големи модели могат да струват десетки милиони долари, тъй като едновременно работят стотици чипове. Вероятността от хардуерни сривове е по-голяма, като се има предвид колко сложна е системата. В същото време изследователите може да не разберат каква е крайната производителност на моделите до края на обучението, което отнема месеци.
Друг проблем е, че големите езикови модели поглъщат огромни количества данни, а всички леснодостъпни източници в света вече са изчерпани. Недостигът на електроенергия също възпрепятства обученията, тъй като този процес е изключително енергоемък.
За да се справят с тези предизвикателства, изследователите проучват „изчисления по време на тестване“ - техника, която подобрява съществуващите модели на AI по време на т.нар. фаза на „извод“, или когато моделът се използва. Например, вместо веднага да избира един отговор, той може да генерира и оценява множество възможности в реално време, като накрая избира най-добрия път напред. Този метод позволява на моделите да отделят повече изчислителна мощ за предизвикателни задачи като математически или кодови операции, които изискват разсъждения и вземане на решения, подобни на човешките.
„Оказва се, че ако накараме един бот да мисли само 20 секунди при игра на покер, той получава същото повишаване на ефективността, както ако увеличим модела 100 000 пъти и го обучаваме 100 000 пъти по-дълго“, казва Ноам Браун, изследовател в OpenAI, който е работил по o1, на конференцията TED AI в Сан Франциско миналия месец.
OpenAI е използвала тази техника в последния си модел, известен като o1, а преди това като Q* и Strawberry. Той може да „мисли“ по многоетапен начин, подобно на човешките разсъждения. Моделът включва също така използването на данни и обратна връзка, курирани от доктори на науките и експерти от индустрията.
Тайният сос на серията o1 е друг набор от обучения, извършвани върху „базови“ модели като GPT-4, и компанията твърди, че планира да прилага тази техника с повече и по-големи базови модели.
В същото време изследователи от други водещи лаборатории за изкуствен интелект - от Anthropic, xAI и Google DeepMind - също разработват свои собствени версии на техниката.
„Виждаме много ниско висящи плодове, които можем да откъснем, за да подобрим тези модели много бързо“, казва Кевин Уейл, главен продуктов директор в OpenAI на технологична конференция през октомври. „До момента, в който хората наваксат, ние ще се опитаме да бъдем още три стъпки напред.“
Последиците могат да променят конкурентния пейзаж за хардуер с изкуствен интелект, който засега се доминира от ненаситното търсене на чиповете на Nvidia. Известни инвеститори в рисков капитал - от Sequoia до Andreessen Horowitz - които са вложили милиарди, за да финансират скъпоструващото разработване на AI модели в множество лаборатории, включително OpenAI и xAI, забелязват прехода и преценяват въздействието върху своите скъпи залози.
„Тази промяна ще ни премести от света на масивните клъстери за предварително обучение към облаците за изводи, които представляват разпределени облачни сървъри“, казва Соня Хуанг, партньор в Sequoia Capital, пред Reuters.
Търсенето на чиповете за изкуствен интелект на Nvidia, които са най-съвременните, подхрани възхода на компанията, която се превърна в най-ценната в света, изпреварвайки Apple през октомври. За разлика от чиповете за обучение, където Nvidia доминира, гигантът може да се сблъска с по-голяма конкуренция на пазара на изводи. Но по всичко личи, че компанията е готова за това.
„Вече открихме втори закон за мащабиране и това е законът за мащабиране в момент на извод. Всички тези фактори доведоха до това, че търсенето на Blackwell е невероятно голямо“, посочва Хуанг миналия месец на конференция в Индия, визирайки най-новия AI чип на компанията.