С ChatGPT теперь можно общаться голосом и картинками

В одном из самых больших обновлений ChatGPT, OpenAI запустила два новых способа взаимодействия со своим приложением. Во-первых, ChatGPT получил голос. Стоит выбрать один из пяти синтетических голосов, и можно общаться с чат-ботом как по телефону, получая ответы в режиме реального времени.

ChatGPT добавила функцию распознавания изображений, что означает, что теперь можно загружать изображения в приложение и спрашивать его о том, что на них изображено, передает MIT Technologie Review.

Эти обновления дополняют объявление на прошлой неделе о том, что DALL-E 3, последнюю версию модели создания изображений OpenAI, подключат к ChatGPT и научат чат-бота генерировать изображения.

Разговор с ChatGPT основан на двух отдельных моделях. Whisper, действующая модель преобразования языка в текст OpenAI, превращает голос в текст, затем передает чат-боту. А новая модель преобразования текста в язык превращает ответы ChatGPT в произнесенные слова.

В демонстрационном ролике, предоставленном компанией ограниченному числу журналистов на прошлой неделе, Джоанна Джанг, продакт-менеджер, продемонстрировала ассортимент синтетических голосов ChatGPT. Они были созданы путем обучения модели преобразования текста в язык на голосах актеров, нанятых OpenAI. В будущем это может даже дать возможность пользователям создавать собственные голоса.

OpenAI делится этой моделью преобразования текста в речь с несколькими другими компаниями, включая Spotify, которая объявила, что использует ту же технологию синтетического голоса для перевода подкастов знаменитостей на несколько языков, которые будут озвучены синтетическими версиями собственных голосов подкастеров.

26.09.2023, 16:00