Apple создала модель ИИ для редактирования фотографий с помощью текстовых подсказок

Исследователи Apple разработали новую модель искусственного интеллекта, которая позволяет пользователям на простом языке описывать то, что они хотят изменить на фотографии. При этом корректировать изображение можно, даже не прикасаясь к программному обеспечению для редактирования фотографий, пишет The Verge.

Модель MGIE (MLLM-Guided Image Editing), над которой Apple работала совместно с Калифорнийским университетом в Санта-Барбаре, позволяет обрезать, изменять размер, переворачивать и добавлять фильтры к изображениям с помощью текстовых подсказок. Эта модель также может использоваться для более сложных задач редактирования изображений, таких как изменение определенных объектов на фотографии, чтобы придать им другую форму или сделать их ярче.

MGIE совмещает два разных типа использования мультимодальных языковых моделей. Во-первых, она учится интерпретировать пользовательские подсказки. Затем она «представляет», как будет редактироваться (например, запрос на более синее небо на фотографии приводит к увеличению яркости части изображения с небом).

При редактировании фотографии с помощью MGIE пользователям нужно просто распечатать то, что они хотят изменить в изображении. К примеру, при редактировании изображения пиццы пепперони можно набрать подсказку «сделай ее здоровее», и модель добавит овощные начинки. Фотография тигров в Сахаре выглядит темной, но после того, как модели сказали «добавить больше контраста, чтобы имитировать больше света», изображение стало ярче.

«Вместо коротких, но двузначных указаний MGIE выявляет явные визуальные намерения и приводит к разумному редактированию изображений», — говорится в статье исследователей.

Apple предоставила MGIE для загрузки через GitHub, а также выпустила веб-демонстрацию Hugging Face Spaces. В компании не уточнили своих дальнейших планов относительно этой модели.