Microsoft создала нейросеть, которая генерирует видео человека по одному фото и аудиозаписи

Компания Microsoft представила нейросеть VASA-1, которая может генерировать реалистичные видео человека на основе одной фотографии и аудиозаписи.

Нейросеть способна на основе статичного фото воспроизводить мимику и естественные движения головы, синхронизированные со звуком. Модель также может в онлайн-режиме генерировать видео 512×512 пикселей со скоростью до 40 кадров в секунду с незначительной стартовой задержкой.

«Это открывает путь к общению в реальном времени с аватарами, имитирующими человеческое поведение», — говорится на сайте Microsoft.

VASA-1 может обрабатывать художественные фотографии, песни и неанглийский язык. Кроме того, пользователи могут редактировать внешность, позицию головы и динамику лица аватара.

Как отмечает Microsoft, исследование использует искусственный интеллект с положительными намерениями: оно не преследует цель создания контента, вводящего в заблуждение. Однако это не отменяет угрозы того, что моделью могут воспользоваться злоумышленники. Разработчики отмечают, что они против любых действий, направленных на причинение вреда реальным людям. Кроме того, они заинтересованы в совершенствовании метода для выявления подделок.

«Мы ответственно подходим к разработке ИИ с целью улучшения благосостояния людей», — говорят в компании.

Осознавая такие риски, исследователи решили не выпускать продукт на рынок, пока не будут уверены, что их технологию «будут использовать ответственно и в соответствии с надлежащими правилами».

Напоследок на сайте указано, что нейросеть может пригодиться людям, которые испытывают трудности в коммуникации, а также нуждающимся в терапевтической поддержке.

Источник: Afn.kz