Човешкият мозък превръща информацията от сетивата в абстрактни представи, които ни помагат да разбираме случващото се, да предвиждаме бъдещи събития и да вземаме решения.

Един впечатляващ пример за това е професионалният бейзболен играч, който успява да удари топка, летяща със скорост от 160 км/ч. За това действие той разполага само с милисекунди – време, недостатъчно дори за обработка на визуалния сигнал.

Вместо това играчът използва вътрешни модели в съзнанието си, които предсказват траекторията на топката и автоматично насочват действията му.

Според изследователи като Дейвид Ха и Юрген Шмидхубер тези интуитивни прогнози, които човешкият мозък прави чрез вътрешни модели, са ключът към интелигентността.

Те смятат, че създаването на подобни модели в изкуствения интелект е основна стъпка към постигането на интелект на човешко ниво.

Моделите за симулация на света имат потенциала да преобърнат начина, по който разсъждаваме за AI, като го направят по-интуитивен, ефективен и способен на разсъждения, близки до човешките.

Тези инструменти, макар да съществуват като концепция от десетилетия, набират значителна популярност напоследък благодарение на обещаващите приложения в генерирането на видео съдържание.

Те не просто прогнозират движения и взаимодействия – целта им е да разберат защо светът функционира по определен начин, посочва ТechCrunch.

Защо са важни моделите за симулация на света?

Видеата, създадени с изкуствен интелект, често попадат в капана на т.нар. "долина на странното".

При по-внимателен поглед зрителят може да забележи неестествени детайли, като усукани крайници или сливащи се обекти. Причината е, че повечето модели просто следват статистически зависимости, без да разбират основните закони на физиката или логиката.

Например модел, обучен на хиляди часове видео, може да предскаже, че баскетболна топка подскача, но няма да знае защо това се случва. Моделите за симулация на света обаче биха могли да осъзнаят физическите принципи зад движението – гравитация, еластичност и съпротивление. Този по-дълбок подход обещава значително по-реалистични резултати.

За да постигнат разбиране за света, тези модели се тренират с разнообразни данни – снимки, аудио, видео и текст. Идеята е да изградят вътрешни представи за взаимодействията в заобикалящата ни среда и да предвиждат последствията от различни действия.

Отвъд видеата – нови хоризонти за световните модели

Подобряването на видео съдържанието е само началото. Водещи изследователи като Ян Лекун, главен учен по AI в Meta, вярват, че тези модели ще играят важна роля в сложни прогнози и планиране, както в дигиталния, така и в реалния свят.

Лекун дава пример с модел, който може да премине от видео на мръсна стая към кадър на чиста. Целта тук не е просто възпроизвеждане на познати сценарии, а логическо изработване на последователност от действия – например, събиране на боклука, почистване на чиниите и пускане на прахосмукачка – базирано на разбиране за това какво означава "чиста стая".

"Нуждаем се от машини, които разбират света – които могат да помнят, да имат интуиция, здрав разум и способност за планиране на нивото на хората", казва Лекун пред TechCrunch.

Въпреки че Лекун предвижда, че сме поне десетилетие от тези напреднали модели, настоящите инструменти вече показват потенциал като базови физически симулатори.

Светът през очите на машините

Моделите, които симулират света, не просто ще ни дадат по-реалистични видеа – те са ключът към изграждането на истински разумни системи. Те обещават машини, които не само наблюдават, но и разбират света по-дълбоко, способни да предвиждат и планират със същата лекота, с която го правят хората.

OpenAI отбелязва в своя блог, че моделът Sora, който компанията определя като инструмент, симулиращ светове, може да пресъздаде и действия на художник, който оставя следи от четката си върху платно.

Освен това модели като Sora (и самият той) са способни ефективно да симулират видеоигри.

Какво предстои?

Джъстин Джонсън, съосновател на World Labs, в подкаста на a16z разкрива, че бъдещите световни модели ще имат потенциала да генерират 3D светове по заявка за игри, виртуална фотография и много други.

"Вече разполагаме с възможности да създаваме виртуални, интерактивни светове, но това струва стотици милиони долари и изисква огромно време за разработка", казва Джонсън.

"Моделите ще ни позволят не просто да създаваме изображения или кратки видеоклипове, а напълно симулирани, живи и интерактивни 3D светове."

Тази технология може да трансформира игровата и развлекателната индустрия, като направи създаването на сложни виртуални среди по-достъпно и ефективно. Вместо години разработка и огромни бюджети, световните модели могат да предоставят мигновени, персонализирани 3D изживявания за потребители и разработчици.

Макар концепцията за моделите, които симулират свят, да е обещаваща, пътят към успешното им реализиране е изпълнен със сериозни технически препятствия.

Създаването и използването на инструменти от този вид изисква значително повече изчислителна мощност в сравнение с настоящите генеративни модели. Докато съвременните езикови модели вече могат да функционират на смартфони, Sora – един от ранните примери за модел, симулиращ свят – изисква хиляди графични процесори (GPU) за обучение и изпълнение. Ако тази технология стане широко разпространена, изискванията ще нараснат още повече.

Подобно на всички AI модели, инструментите за симулация са склонни към "халюцинации" и наследяват пристрастията, заложени в обучителните данни. Например модел, обучен предимно на видеа от слънчеви европейски градове, може да изпитва затруднения при възпроизвеждане на корейски локации в снежни условия или да ги изобразява неправилно.

Въпреки тези предизвикателства, някои експерти вярват, че ако големите пречки бъдат преодолени, моделите, симулиращи цели светове, ще направят изкуствения интелект значително по-реалистичен и полезен в реалния свят.

Те могат да доведат до революция не само в създаването на виртуални светове, но и в роботиката и AI-базираните решения.