OpenAI представила голосовой ИИ нового поколения с реалистичной интонацией

Компания OpenAI анонсировала новую версию голосового API — Realtime API. В его основе лежит модель gpt-realtime, способная обрабатывать речь напрямую, без промежуточного перевода в текст. Это делает ответы быстрее и естественнее, а также снижает количество перебиваний собеседника.

Модель распознаёт интонацию, эмоции (такие, как смех и грусть) и может воспроизводить их в ответах. Она многоязычна и умеет динамически переключаться между языками в ходе разговора. Во время демонстрации OpenAI показала, как ИИ декламирует стихотворение с интонацией, плавно переходя с одного языка на другой, а также исполняет роль вежливого ассистента поддержки, взаимодействующего с настойчивым клиентом.

Gpt-realtime умеет анализировать изображения и использовать визуальную информацию в диалоге. Также реализована поддержка MCP — интерфейса, с помощью которого пользователи могут предоставить модели доступ к внешним источникам информации: базам данных, внутренней документации и другим материалам. Во время поиска gpt-realtime продолжает разговор, избегая пауз и обрывов в диалоге.

Модель доступна только через API и стоит $32 за миллион входящих токенов, $64 за миллион исходящих, а также $0,40 за миллион кэшированных токенов. Обновление встроенного голосового ассистента в ChatGPT компания пока официально не анонсировала.

Ещё по теме:

Мы в Telegram, на Дзен, в Google News и YouTube

OpenAI Искусственный интеллект

OpenAI представила голосовой ИИ нового поколения с реалистичной интонацией

София Лайтман

Taco Bell пересматривает стратегию с ИИ в автообслуживании

Этот день в истории Apple: Mac отправляет из космоса первое электронное письмо