Най-новият модел на OpenAI - Sora - генерира реалистични видеоклипове
OpenAI, следвайки стъпките на стартъпи като Runway и технологични гиганти като Google и Meta, навлиза в генерирането на видео.
Компанията представи Sora - генеративен модел на изкуствен интелект, който създава видео от текст.
При кратко или подробно описание, както и при прилагане на снимка Sora може да генерира сцени, подобни на филми, с множество герои, различни видове движение и фонови детайли.
Моделът може също така да "разширява" съществуващи видеоклипове, като прави всичко възможно да попълни липсващите елементи.
OpenAI пусна кратки клипове, представящи ярки, привидно реалистични видеоклипове, сред които мамути, преминаващи през заснежено поле, океански вълни, разбиващи се в брега на скала, и хора, правещи ежедневни неща като четене на книга.
"Sora има задълбочено разбиране на езика, което ѝ позволява точно да интерпретира заявките и да генерира убедителни герои, които изразяват ярки емоции", пише компанията в блога си.
"Моделът разбира не само какво е поискал потребителят, но и как тези неща съществуват във физическия свят."
В страницата на OpenAI за Sora има много обещаващи изказвания - пример за това е горното твърдение.
Но подбраните от модела извадки изглеждат доста впечатляващо, поне в сравнение с други технологии за преобразуване на текст във видео, които сме виждали, посочва TechCrunch.
Sora може да генерира видеоклипове в различни стилове (например фотореалистични, анимирани, черно-бели) с дължина до една минута - много повече от други модели за преобразуване на текст във видео.
И тези филми поддържат разумна кохерентност в смисъл, че не винаги се поддават на "странностите на изкуствения интелект", като например обекти, движещи се във физически невъзможни посоки.
OpenAI - при всичките си суперлативи - признава, че моделът не е съвършен. Компанията пише:
"Sora може да се затрудни с точното симулиране при детайлна сцена и може да не разбира конкретни случаи на причина и следствие. Например, човек може да отхапе бисквита, но след това върху нея да няма следи от отхапване. Моделът може също така да обърка заканите за пространствени детайли, например да обърка ляво и дясно, и да се затрудни с точните описания на събития, които се случват във времето."
OpenAI позиционира Sora като изследователска визуализация, като разкрива малко за това какви данни са използвани за обучението на модела.
Основанието за това е потенциалът за злоупотреба – компанията посочва, че злонамерени потребители биха могли да използват такъв модел по безброй начини.
От OpenAI твърдят, че работят с експерти, за да изследват технологията за уязвимости и да създадат инструменти за откриване на това дали дадено видео е генерирано от модела им.
Компанията също така казва, че ако реши да вгради модела в публичен продукт, ще гарантира, че метаданните за произхода са включени в генерираните резултати.
"Ще се ангажираме с политици, преподаватели и артисти от цял свят, за да разберем техните опасения и да идентифицираме положителни случаи на използване на тази нова технология", пише OpenAI.
"Въпреки обширните изследвания и тестове не можем да предвидим всички начини, по които хората ще използват нашата технология, нито всички начини, по които хората ще злоупотребяват с нея. Ето защо вярваме, че ученето от реалната употреба е критичен компонент за създаването и пускането на все по-безопасни системи с изкуствен интелект с течение на времето."