В Microsoft представили нейросеть, создающую гиперреалистичные дипфейки
Новый алгоритм VASA-1 от Microsoft сгенерирует видео говорящего человека с широким спектром эмоций и естественной мимикой. Для этого алгоритма достаточно иметь всего одно фото и аудиодорожку.
Результат работы VASA-1 выглядит очень естественным. Лишь из одного снимка лица и записи голоса алгоритм создает реалистичное видео, на котором изображенный на снимке человек буквально «оживает», а его мимика, движения губ и головы выглядят вполне естественно. Поскольку созданные с помощью VASA-1 видео сразу сложно отличить от реальных, сообщество выражает опасения по поводу того, что алгоритм может использоваться для создания фейков.
Что касается самой нейросети, главным ее отличием от других похожих алгоритмов является наличие целостной модели генерации лицевой мимики и движений головы. Специалисты Microsoft провели обширную исследовательскую работу, включая оценку ряда новых метрик. В результате они установили, что новый алгоритм значительно превосходит представленные ранее аналоги по многим параметрам.
«Наш метод не только обеспечивает генерацию видео высокого качества с реалистичной мимикой и движениями головы, но также поддерживает функцию онлайн-генерации видео 512×512 пикселей с частотой 40 кадров в секунду с незначительной начальной задержкой. Это открывает путь к взаимодействию в реальном времени с реалистичными аватарами, имитирующими поведение человека во время разговора», — говорится в сообщении Microsoft.
Создается впечатление, что нейросеть может создавать качественные фейковые видео на основе только одного изображения. Именно поэтому, вероятно, Microsoft называет VASA-1 «исследовательской демонстрацией» и не планирует выводить его на коммерческий рынок, по крайней мере, в ближайшее время.