Може ли Мона Лиза да рапира? Новият AI инструмент на Microsoft казва да
Компанията представи подробно разработения нов модел, който може да вземе неподвижно изображение на лице и аудиоклип на говорещ човек и автоматично да създаде реалистично видео
Мона Лиза вече може не само да се усмихва, но и да рапира, благодарение на нова AI технология от Microsoft.
Компанията представи подробно разработения нов модел на изкуствен интелект, който може да вземе неподвижно изображение на лице и аудиоклип на говорещ човек и автоматично да създаде реалистично изглеждащо видео на говорещия човек.
Видеоклиповете, които могат да бъдат създадени от фотореалистични лица, както и от карикатури или произведения на изкуството, са снабдени със завладяваща синхронизация на устните и естествени движения на лицето и главата. В демонстрационно видео изследователите показаха как анимират Мона Лиза, за да рецитира комедиен рап на Ан Хатауей, съобщава CNN.
The unveiling of Microsoft VASA-1 is quite fascinating
— The AI Colony (@TheAIColony) April 19, 2024
This AI development now allows you transform images and sounds into a live form videos with accurate lip syncs, facial expressions amongst others.
See this video of Monalisa rapping for example
pic.twitter.com/xLFMQNr1jR
Резултатите от модела на изкуствения интелект, наречен VASA-1, са едновременно забавни и малко стряскащи със своята реалност. От Microsoft заявиха, че технологията може да се използва за образование или за "подобряване на достъпността за хора с комуникационни проблеми", или потенциално за създаване на виртуални спътници.
Но също така е лесно да се види как с инструмента може да се злоупотреби. Това е проблем, който надхвърля рамките на Microsoft.
С появата на все повече инструменти за създаване на убедителни изображения, видеоклипове и аудиоклипове, генерирани от изкуствен интелект, експертите се опасяват, че злоупотребата може да доведе до нови форми на дезинформация. Някои се опасяват, че технологията може да наруши още повече творческите индустрии – от филмовата до рекламната.
Засега Microsoft не планира да пусне веднага модела VASA-1 за публично ползване.
Този ход е подобен на начина, по който партньорът им OpenAI се справя с опасенията около своя инструмент за видео, генерирано от изкуствен интелект Sora. OpenAI го обяви през февруари, но досега е предоставен само на някои професионални потребители и експерти по киберсигурност с цел тестване.
"Противопоставяме се на всяко поведение за създаване на подвеждащо или вредно съдържание на реални лица", заявиха изследователи от Microsoft и добавиха, че компанията "не планира да пусне" продукта публично, "докато не сме сигурни, че технологията ще се използва отговорно и в съответствие с подходящите разпоредби".
Новият модел с изкуствен интелект на Microsoft е обучен на множество видеоклипове с лица на хора по време на разговор и е проектиран да разпознава естествените движения на лицето и главата, включително "движение на устните, изражение на лицето, поглед на очите и мигане, както и други", казват изследователите.
Резултатът е по-реалистично видео, когато VASA-1 анимира неподвижна снимка.
Инструментът може да бъде насочен да създаване на видеоклип, в който обектът гледа в определена посока или изразява определена емоция. При внимателно вглеждане все още има признаци, че видеоклиповете са машинно генерирани, като рядко мигане и преувеличени движения на веждите.
Но Microsoft смята, че нейният модел "значително превъзхожда" други подобни инструменти и "проправя пътя за ангажиране в реално време с реалистични аватари, които имитират човешкото разговорно поведение".