Meta создала новый генератор на основе искусственного интеллекта
В последнее время часто обсуждаются генераторы изображений на основе искусственного интеллекта, однако исследователи Meta уже идут дальше и публично представили новый генератор, превращающий текст в видео, сообщает The Verge.
Команда инженеров по машинному обучению Meta представила новую систему под названием Make-A-Video. Эта модель искусственного интеллекта позволяет пользователям вводить приблизительное описание сцены, и она генерирует короткое видео, соответствующее их тексту. Видеоролики явно искусственные, с размытыми объектами и искаженной анимацией, но все же являются значительным достижением в области генерации контента искусственного интеллекта.
В своем посту на Facebook гендиректор Meta Марк Цукерберг описал эту работу как «удивительный прогресс», добавив:
«Создавать видео гораздо сложнее, чем фотографии, потому что помимо правильной генерации каждого пикселя, система также должна предугадать, как они будут меняться со временем».
Клипы длятся не более пяти секунд и не содержат звука, но охватывают огромный спектр подсказок. Хотя понятно, что видео сгенерировано компьютером, качество таких моделей искусственного интеллекта быстро улучшится в ближайшем будущем. Всего за несколько лет генераторы изображений искусственного интеллекта прошли путь от создания почти непонятных картинок до фотореалистического контента. И хотя прогресс в видео может быть медленнее, учитывая почти безграничную сложность предметной области, награда за бесшовную генерацию видео будет мотивировать многие организации и компании вкладывать значительные ресурсы в этот проект.
Компания заявляет, что планирует выпустить демонстрационную версию системы, но не сообщает, когда и как это будет реализовано.
В документе-описании модели исследователи Meta отмечают, что Make-A-Video тренируется на парах изображений и подписей, а также на немаркированных видеоматериалах. Обучающий контент был получен из двух наборов данных, WebVid-10M и HD-VILA-100M, которые вместе содержат миллионы видеороликов и охватывают сотни тысяч часов видеозаписей. К слову, сюда входят стоковые видеоматериалы.
Исследователи отмечают, что у модели много технических ограничений, кроме размытых кадров и разрозненной анимации. Make-A-Video выводит 16 кадров видео с разрешением 64×64 пикселя, которые затем увеличиваются в размере с помощью отдельной модели искусственного интеллекта до 768×768 пикселей.