Мона Лиза вече може не само да се усмихва, но и да рапира, благодарение на нова AI технология от Microsoft.

Компанията представи подробно разработения нов модел на изкуствен интелект, който може да вземе неподвижно изображение на лице и аудиоклип на говорещ човек и автоматично да създаде реалистично изглеждащо видео на говорещия човек.

Видеоклиповете, които могат да бъдат създадени от фотореалистични лица, както и от карикатури или произведения на изкуството, са снабдени със завладяваща синхронизация на устните и естествени движения на лицето и главата. В демонстрационно видео изследователите показаха как анимират Мона Лиза, за да рецитира комедиен рап на Ан Хатауей, съобщава CNN.

Резултатите от модела на изкуствения интелект, наречен VASA-1, са едновременно забавни и малко стряскащи със своята реалност. От Microsoft заявиха, че технологията може да се използва за образование или за "подобряване на достъпността за хора с комуникационни проблеми", или потенциално за създаване на виртуални спътници.

Но също така е лесно да се види как с инструмента може да се злоупотреби. Това е проблем, който надхвърля рамките на Microsoft.

С появата на все повече инструменти за създаване на убедителни изображения, видеоклипове и аудиоклипове, генерирани от изкуствен интелект, експертите се опасяват, че злоупотребата може да доведе до нови форми на дезинформация. Някои се опасяват, че технологията може да наруши още повече творческите индустрии – от филмовата до рекламната.

Засега Microsoft не планира да пусне веднага модела VASA-1 за публично ползване.

Този ход е подобен на начина, по който партньорът им OpenAI се справя с опасенията около своя инструмент за видео, генерирано от изкуствен интелект Sora. OpenAI го обяви през февруари, но досега е предоставен само на някои професионални потребители и експерти по киберсигурност с цел тестване.

"Противопоставяме се на всяко поведение за създаване на подвеждащо или вредно съдържание на реални лица", заявиха изследователи от Microsoft и добавиха, че компанията "не планира да пусне" продукта публично, "докато не сме сигурни, че технологията ще се използва отговорно и в съответствие с подходящите разпоредби".

Новият модел с изкуствен интелект на Microsoft е обучен на множество видеоклипове с лица на хора по време на разговор и е проектиран да разпознава естествените движения на лицето и главата, включително "движение на устните, изражение на лицето, поглед на очите и мигане, както и други", казват изследователите.

Резултатът е по-реалистично видео, когато VASA-1 анимира неподвижна снимка.

Инструментът може да бъде насочен да създаване на видеоклип, в който обектът гледа в определена посока или изразява определена емоция. При внимателно вглеждане все още има признаци, че видеоклиповете са машинно генерирани, като рядко мигане и преувеличени движения на веждите.

Но Microsoft смята, че нейният модел "значително превъзхожда" други подобни инструменти и "проправя пътя за ангажиране в реално време с реалистични аватари, които имитират човешкото разговорно поведение".