С ChatGPT теперь можно общаться голосом и картинками

В одном из самых больших обновлений ChatGPT, OpenAI запустила два новых способа взаимодействия со своим приложением. Во-первых, ChatGPT получил голос. Стоит выбрать один из пяти синтетических голосов, и можно общаться с чат-ботом как по телефону, получая ответы в режиме реального времени.

ChatGPT добавила функцию распознавания изображений, что означает, что теперь можно загружать изображения в приложение и спрашивать его о том, что на них изображено, передает MIT Technologie Review.

Эти обновления дополняют объявление на прошлой неделе о том, что DALL-E 3, последнюю версию модели создания изображений OpenAI, подключат к ChatGPT и научат чат-бота генерировать изображения.

Разговор с ChatGPT основан на двух отдельных моделях. Whisper, действующая модель преобразования языка в текст OpenAI, превращает голос в текст, затем передает чат-боту. А новая модель преобразования текста в язык превращает ответы ChatGPT в произнесенные слова.

В демонстрационном ролике, предоставленном компанией ограниченному числу журналистов на прошлой неделе, Джоанна Джанг, продакт-менеджер, продемонстрировала ассортимент синтетических голосов ChatGPT. Они были созданы путем обучения модели преобразования текста в язык на голосах актеров, нанятых OpenAI. В будущем это может даже дать возможность пользователям создавать собственные голоса.

OpenAI делится этой моделью преобразования текста в речь с несколькими другими компаниями, включая Spotify, которая объявила, что использует ту же технологию синтетического голоса для перевода подкастов знаменитостей на несколько языков, которые будут озвучены синтетическими версиями собственных голосов подкастеров.