Може ли Мона Лиза да рапира? Новият AI инструмент на Microsoft казва да

Компанията представи подробно разработения нов модел, който може да вземе неподвижно изображение на лице и аудиоклип на говорещ човек и автоматично да създаде реалистично видео

Unsplash

Мона Лиза вече може не само да се усмихва, но и да рапира, благодарение на нова AI технология от Microsoft.

Компанията представи подробно разработения нов модел на изкуствен интелект, който може да вземе неподвижно изображение на лице и аудиоклип на говорещ човек и автоматично да създаде реалистично изглеждащо видео на говорещия човек.

Видеоклиповете, които могат да бъдат създадени от фотореалистични лица, както и от карикатури или произведения на изкуството, са снабдени със завладяваща синхронизация на устните и естествени движения на лицето и главата. В демонстрационно видео изследователите показаха как анимират Мона Лиза, за да рецитира комедиен рап на Ан Хатауей, съобщава CNN.

The unveiling of Microsoft VASA-1 is quite fascinating

This AI development now allows you transform images and sounds into a live form videos with accurate lip syncs, facial expressions amongst others.

See this video of Monalisa rapping for example

pic.twitter.com/xLFMQNr1jR
— The AI Colony (@TheAIColony) April 19, 2024

Резултатите от модела на изкуствения интелект, наречен VASA-1, са едновременно забавни и малко стряскащи със своята реалност. От Microsoft заявиха, че технологията може да се използва за образование или за "подобряване на достъпността за хора с комуникационни проблеми", или потенциално за създаване на виртуални спътници.

Но също така е лесно да се види как с инструмента може да се злоупотреби. Това е проблем, който надхвърля рамките на Microsoft.

С появата на все повече инструменти за създаване на убедителни изображения, видеоклипове и аудиоклипове, генерирани от изкуствен интелект, експертите се опасяват, че злоупотребата може да доведе до нови форми на дезинформация. Някои се опасяват, че технологията може да наруши още повече творческите индустрии – от филмовата до рекламната.

Елементите с изкуствен интелект не са толкова ужасни, че да прекъснат целия филм - те са на екрана само за по няколко секунди, но изпъкват като недостатък

AI влезе във филм на ужасите – и е много по-скучен, отколкото си мислите

Засега Microsoft не планира да пусне веднага модела VASA-1 за публично ползване.

Този ход е подобен на начина, по който партньорът им OpenAI се справя с опасенията около своя инструмент за видео, генерирано от изкуствен интелект Sora. OpenAI го обяви през февруари, но досега е предоставен само на някои професионални потребители и експерти по киберсигурност с цел тестване.

Още преди да стане широкодостъпен новият модел за генериране на видеоклипове на OpenAI предизвиква както огромно вълнение, така и чувство на обреченост. Какви са аргументите на оптимистите и песимистите?

От надежди за по-висока творческа продуктивност до страхове за мрачно бъдеще: Какво ще стане, когато Sora попадне в ръцете ни?

"Противопоставяме се на всяко поведение за създаване на подвеждащо или вредно съдържание на реални лица", заявиха изследователи от Microsoft и добавиха, че компанията "не планира да пусне" продукта публично, "докато не сме сигурни, че технологията ще се използва отговорно и в съответствие с подходящите разпоредби".

Новият модел с изкуствен интелект на Microsoft е обучен на множество видеоклипове с лица на хора по време на разговор и е проектиран да разпознава естествените движения на лицето и главата, включително "движение на устните, изражение на лицето, поглед на очите и мигане, както и други", казват изследователите.

Резултатът е по-реалистично видео, когато VASA-1 анимира неподвижна снимка.

Анатомия на дълбокия фейк: Как се създават събития, които не са се случвали

Инструментът може да бъде насочен да създаване на видеоклип, в който обектът гледа в определена посока или изразява определена емоция. При внимателно вглеждане все още има признаци, че видеоклиповете са машинно генерирани, като рядко мигане и преувеличени движения на веждите.

Но Microsoft смята, че нейният модел "значително превъзхожда" други подобни инструменти и "проправя пътя за ангажиране в реално време с реалистични аватари, които имитират човешкото разговорно поведение".

Сподели Сподели Сподели Сподели