OpenAI выпустила линейку голосовых моделей для живых диалогов, перевода и распознавания речи в API

OpenAI представила в API новую линейку голосовых моделей из трёх систем, рассчитанных на полноценные голосовые сервисы с живым диалогом, потоковым переводом и распознаванием речи в реальном времени.
Главной из них стала GPT-Realtime-2, первая голосовая модель компании с уровнем рассуждений класса GPT-5. Компания делает ставку на сценарии, где переключаться на клавиатуру и текстовый ввод неудобно или невозможно.

В новую серию вошли 3 модели. GPT-Realtime-2 рассчитана на сложные разговоры, умеет удерживать контекст, воспринимать уточнения и продолжать общение при смене темы или формулировки запроса. Вторая модель GPT-Realtime-Translate отвечает за потоковый перевод речи, принимает более 70 языков на вход и переводит разговор на 13 выходных языков, стараясь сохранить темп и структуру речи собеседника.

Третья модель GPT-Realtime-Whisper занимается распознаванием речи в реальном времени и переводит голос в текст прямо во время разговора без ожидания окончания фразы или отдельной обработки аудиозаписи.
В OpenAI связывают новые возможности с поддержкой клиентов, международными поездками и общением между людьми, использующими разные языки. В компании считают, что голосовые интерфейсы становятся востребованными там, где печатать неудобно, среди примеров называются поездки за рулём, работа в аэропортах, общение со службой поддержки и многозадачные сценарии. По замыслу разработчиков, голосовой агент должен не просто отвечать, а понимать намерение пользователя, помнить детали разговора, подключать внешние инструменты и корректно реагировать на ошибки.

GPT-Realtime-2 получила много функций под такие задачи. Разработчики смогут использовать короткие служебные уведомления, чтобы пользователь понимал, когда система проверяет данные или выполняет запрос. Модель поддерживает параллельный вызов инструментов, умеет сообщать о проблемах вместо молчаливого отказа и работает с контекстным окном объёмом до 128 тысяч токенов против прежних 32 тысяч.

В OpenAI также заявляют, что модель лучше удерживает специализированную лексику, имена собственные и профессиональные термины, в том числе медицинские. Разработчики смогут выбирать уровень рассуждений от минимального до xhigh, балансируя между скоростью ответа и глубиной анализа.

По бенчмаркам GPT-Realtime-2 с высоким уровнем рассуждений показала в тесте Big Bench Audio точность 96,6% против 81,4% у GPT-Realtime-1.5. В Audio MultiChallenge вариант xhigh набрал 48,5% среднего прохождения, тогда как предыдущая модель получила 34,7%. В OpenAI связывают рост показателей с улучшенной работой с инструкциями, контекстом и устойчивостью во время живого разговора.

Ещё по теме:

Мы в Telegram, на Дзен, в Google News и YouTube

OpenAI выпустила линейку голосовых моделей для живых диалогов, перевода и распознавания речи в API

Кирилл Поляков

Поколение «аренды»: почему зумеры методично разрушают модель подписок

Apple выпустила Safari Technology Preview 243