Всяка пролет хиляди софтуерни инженери се събират в Сан Хосе, Калифорния, за да разгледат най-новите свръхбързи компютърни процесори и да участват в работилници по програмиране на годишната конференция за разработчици на Nvidia.

Събитието е известно като GTC – съкращение от GPU Technology Conference. Възможно е обаче скоро да се нуждае от ново име.

Тази година за първи път фокусът на конференцията, която започва в понеделник, няма да бъде изцяло върху GPU – графичните процесори, уникално бързите и мощни чипове, върху които Nvidia изгради своята огромна изчислителна империя и се превърна в най-голямата публично търгувана компания в света.

Вместо това много по-голяма част от разговорите ще бъдат посветени на инференцията – процесът, при който AI моделите работят в реално време и отговарят на потребителски заявки.

Причината е, че индустрията на изкуствения интелект окончателно навлиза в нов етап. Клиентите на Nvidia днес са по-малко фокусирани върху обучението на големи AI модели – област, в която GPU са най-силни – и много по-заинтересовани от използването на тези модели и превръщането им в реални приходи от крайни потребители.

Този тип изчисления изисква различен набор от хардуер в сравнение с чиповете, оптимизирани за обучение. Необходими са по-висока енергийна ефективност, по-бързи връзки между компонентите и повече памет с висок пропускателен капацитет.

Главният изпълнителен директор на Nvidia Дженсън Хуанг от известно време твърди, че 2026 г. ще бъде годината, в която този етап на използване на AI ще доминира развитието на индустрията. На конференция за инвеститори на 4 март той призна, че „точката на пречупване, която наблюдаваме, всъщност беше видима от доста време и се свежда до способността на AI да използва файлове, да има достъп до тях и да работи с инструменти“.

Тези функции, известни общо като агентен AI, разчитат почти изцяло на инференцията и са в основата на убеждението, че изкуственият интелект ще трансформира из основи световната икономика.

Бързото нарастване на възможностите на тези агенти води до бум в търсенето на изчислителна мощ. Компании като OpenAI и Anthropic, които поддържат популярните кодиращи агенти Codex и Claude Code, вече генерират хиляди пъти повече инференционни „токени“ – основната единица за измерване на изходящите данни при генеративния AI – отколкото преди, казва Хуанг.

Ерата на инференцията е тази, която технологичните компании от всякакъв мащаб очакват – моментът, в който икономиката на AI изчисленията може да се обърне от загуба към печалба, стига цената на предоставянето на тази изчислителна мощ да бъде достатъчно ниска, пише The Wall Street Journal.

AI компаниите навлизат в нов етап. След години на агресивен растеж – белязан от огромни инвестиции в инфраструктура за обучение на модели, включително закупуването на милиони от най-новите GPU на Nvidia от поколенията Hopper и Blackwell, както и от привличането на стотици милиони потребители – секторът вече е фокусиран върху монетизацията. Компаниите се опитват да превърнат технологиите си в устойчиви приходи чрез абонаментни модели или чрез таксуване според потреблението на AI услуги.

„Много е важно да се разбере, че инференцията вече означава приходи за нашите клиенти, защото агентите генерират толкова много токени и резултатите са толкова ефективни“, каза Хуанг по време на последния разговор на Nvidia с инвеститорите след финансовите резултати.

„Трябва да извършваме инференция с много по-висока скорост, а когато това се случва и всеки от тези токени се превръща в долари, това директно се превежда в приходи.“

Предизвикателството пред Nvidia е, че най-продаваните ѝ продукти са по-малко привлекателни за инференционни изчисления, отколкото за обучение на модели. Според потребители сървърите Grace Blackwell консумират огромни количества енергия и не разполагат с достатъчно памет, за да позволят на AI моделите бързо и ефективно да генерират отговори на потребителски въпроси.

„Nvidia се намира в странен момент“, казва пред WSJ Пол Кедроски, рисков инвеститор и изследовател към MIT.

„Дълго време Дженсън твърдеше: ‘Не са ни нужни специализирани, самостоятелни чипове за инференция – просто хвърлете един Blackwell върху задачата.’ Но тази идея вече е отминала и се появяват множество нови конкуренти.“

Кедроски смята, че брутният марж на Nvidia, който през последното тримесечие достигна 73%, неизбежно ще се свие по две причини. Първо, бизнес моделът около инференционните изчисления поставя акцент върху ефективността и върху намаляването на разходите за създаване на крайния продукт, който за потребителите означава AI инструменти. Хардуерът зад тях не може да бъде твърде скъп, иначе компаниите, които го продават – директно или като посредници – няма да печелят.

Второ, конкуренцията за предоставяне на инференционни изчисления нараства, защото повече компании за чипове вече са намерили начини да го осигурят с по-евтини за покупка и експлоатация процесори.

Nvidia стана първата компания на стойност 4 трилиона долара, продавайки силициевия еквивалент на бързи, мощни и скъпи спортни автомобили Ferrari, но днес пазарът иска по-скоро Prius и Model Y, посочва Кедроски.

„Цялата тази история с инференцията е изключително заплашителна за Дженсън, защото всичко е водено от ефективността“, добавя експертът.

„Той отчаяно се опитва да намери начин да разшири бизнеса си в тази посока.“

През декември Nvidia плати 20 млрд. долара, за да лицензира технологията за чипове и да привлече водещите инженери от Groq – стартъп, който разработва нов тип процесор, наречен language processing unit, особено подходящ за работа с модели.

Тази седмица на GTC Nvidia планира да представи първата си изчислителна платформа, използваща чипове на Groq – сървър, който комбинира модифицирана версия на новия Rubin GPU с процесор на Groq, специално оптимизиран за инференционни изчисления, съобщи The Wall Street Journal.

Има и други признаци, че Nvidia измества фокуса си отвъд GPU и се стреми да се позиционира като доставчик на инференционни изчисления. През февруари Meta съобщи, че ще инсталира хиляди процесори Vera CPU на Nvidia – централни процесори, които са основният изчислителен „мозък“ на повечето компютри – в своите AI центрове за данни.

Това е първото значително внедряване на AI системи на Nvidia, което не включва GPU. Все по-широко се признава, че инференционните изчисления могат да се извършват и с CPU и не изискват задължително водещите чипове на Nvidia.

А Intel, производителят на чипове, който през последните години до голяма степен пропусна вълната на AI изчисленията, подготвя обявяване на голямо партньорство с Nvidia в рамките на събитието.

Мащабната лицензионна сделка на Nvidia с Groq беше ускорена, след като един от най-големите ѝ клиенти, OpenAI – създателят на ChatGPT – сключи договор за 10 млрд. долара със стартъпа Cerebras, който разработва скъпи чипове, за които твърди, че са най-бързите инференционни процесори на пазара.

Миналата седмица Cerebras съобщи, че е привлякла Amazon Web Services, най-големия доставчик на облачни услуги, като свой нов клиент, което допълнително навлиза в бизнеса на Nvidia.

Главният изпълнителен директор на Cerebras Андрю Фелдман от месеци насам критикува Nvidia и Хуанг в публикации в блогове.

В LinkedIn той написа, че Nvidia неизбежно ще изостане от конкурентите си в надпреварата за доставка на инференционни изчисления за света, отчасти защото собствената библиотека от програмни езици на компанията, известна като CUDA, по принцип е необходима за обучение на модели, но не и за тяхното използване.

„При инференцията няма защитна бариера CUDA“, посочва Фелдман в интервю.

„Очевидно те не искаха да загубят бизнеса с бързата инференция при OpenAI, но ние им го отнехме.“

Том Бърк, директор „Приходи“ в Nscale – британски доставчик на облачни услуги, който в момента използва само чипове на Nvidia – казва, че възходът на инференцията напълно променя пазара за продажба на изчислителна мощ.

Според него все повече AI компании ще се стремят да диверсифицират доставчиците си на чипове в близко бъдеще.

Колко голяма ще остане преднината на Nvidia в надпреварата за инфраструктурата на AI зависи до голяма степен от това доколко успешно компанията ще успее да пренасочи продуктовата си стратегия от обучение към инференция.

Ако новите чипове, които разработва съвместно с Groq, се окажат достатъчно бързи, ефективни и достъпни, за да доминират конкуренцията, Nvidia вероятно ще запази лидерската си позиция. А компанията очевидно залага именно на това.

Главният финансов директор на Nvidia Колет Крес заяви в скорошно интервю, че натоварванията, свързани с агентния AI, започват да се превръщат в основен двигател на растежа на приходите за компанията и че очаква нейните чипове да доминират пазара в обозримо бъдеще.

„В момента ние сме кралят на инференцията“, каза Крес.