Основният проблем на изкуствения интелект днес не е качеството на писане. Системи като ChatGPT вече създават текст, който трудно се отличава от човешкия. Истинското ограничение е, че моделите не разбират света, в който функционират. Тук започва следващата голяма трансформация в индустрията.

Според CNBC, Alibaba предприема стратегически ход, който ясно показва посоката на пазара. Компанията води инвестиция от 2 млрд. юана (около 290 млн. долара) в стартъпа ShengShu, разработчик на AI видео генератора Vidu. Това е директен залог на новата технологична парадигма – т.нар. „световни модели“.

Големите езикови модели доминират през последните години, но вече срещат своите ограничения. Те са обучени основно върху текст, което ги прави ефективни в комуникацията, но ги ограничава в разбирането на физическия свят. Например могат да опишат как работи една врата, но не и да предвидят надеждно поведението ѝ в конкретна реална ситуация.

Световните модели адресират този дефицит. Вместо да разчитат само на текст, те се обучават с видео, звук и други мултимодални данни, които отразяват реални процеси. Целта не е просто генериране на съдържание, а изграждане на системи, които симулират причинно-следствени връзки в реална среда. Идеята е AI не просто да „вижда“, а и да реагира адекватно – да свързва възприятието с действието по начин, който досега остава труден за постигане.

Китай пренарежда AI надпреварата

Инвестицията в ShengShu е част от по-широко пренареждане на приоритетите в Alibaba. Компанията вече подкрепя проекти като Tripo AI и PixVerse, които разработват модели за 3D среда и поведение в реално пространство. Конкуренцията също напредва – ByteDance и Kuaishou вече създават свои AI инструменти за видео, което прави този сегмент една от най-динамичните области в надпреварата.

Това е различен стратегически подход към пазара. Докато някои западни компании продължават да развиват езикови модели, китайските компании насочват ресурси към AI, който може да работи в реална среда, а не само да генерира съдържание. Тук се крие и по-големият икономически потенциал – при автономните превозни средства, индустриалните роботи и системите за изпълнение на конкретни задачи в реалния свят.

Защо „световните модели“ се превръщат в липсващото звено

Фокусът постепенно се измества – не е важно колко „умен“ изглежда един модел, а доколко разбира света около себе си. Според Кевин Кели, за да се доближи до човешката интелигентност, изкуственият интелект трябва да съчетава способност за разсъждение, усещане за физическата реалност и умение да учи постоянно. Големите езикови модели вече покриват донякъде първия аспект, но разбирането на реалния свят все още изостава.

Тук се позиционират световните модели. Те са основата за т.нар. embodied AI – системи, които не само анализират информация, но и действат: роботи, автономни машини, интелигентни производствени линии. Без надежден модел на реалността тези технологии остават ограничени или рискови.

Продуктът на ShengShu – Vidu – вече е сред водещите модели за генериране на видео от текст и изображения, според Artificial Analysis.

Истинската му стойност се крие в данните и моделите, които го захранват. Генерирането на реалистични видеа изисква разбиране на физика, движение и пространствени взаимодействия – именно тези елементи са ключови за световните модели.

Фактът, че ShengShu излиза на глобалния пазар с такъв продукт, показва нещо важно: иновацията вече не е еднопосочна. Китайските компании не само догонват, но в някои сегменти започват да определят темпото.

Настоящият етап в развитието на изкуствения интелект е ясен. Първата вълна се фокусира върху интерфейса – чатботи и системи като ChatGPT, които направиха технологията достъпна за масовия потребител. Сега вниманието се измества към следващото ниво – модели, които не само генерират съдържание, но и се стремят да разберат как функционира реалният свят.