Японская ИИ-система J-Moshi воспроизводит живую речь и уже работает в колл-центрах, музеях и медицинских сервисах

Разработка японских инженеров J-Moshi стала настоящей революцией речевых моделей искусственного интеллекта. Эта система впервые в истории сфокусировалась на воспроизведении реальных разговорных привычек японцев, в том числе характерных для языка коротких реплик, известных как «айзути».

Фразы вроде «верно» и «понятно», используемые для демонстрации внимания к собеседнику, J-Moshi произносит с естественной паузой и в подходящий момент, что создаёт эффект живого диалога (примеры доступны на сайте компании).

В отличие от большинства ИИ-моделей, которые по-прежнему испытывают трудности с ведением диалога в реальном времени, J-Moshi умеет одновременно слушать и говорить. Эта особенность вывела качество общения на новый уровень, особенно для носителей японского языка, отмечающих, что взаимодействие с ИИ теперь мало отличается от беседы с человеком.

Проект был реализован в Университете Нагоя на базе англоязычной платформы Moshi, разработанной Kyutai. На адаптацию под японский ушло около четырёх месяцев. За это время была проведена масштабная работа с крупнейшими доступными корпусами устной речи.

Важнейшую роль сыграл J-CHAT — массивный набор японских диалогов, подготовленный Токийским университетом, включающий более 67 тыс. часов подкастов и видеороликов с YouTube. Чтобы расширить лингвистическое разнообразие, команда использовала устаревшие, но качественные записи разговоров, а также преобразованные в аудио текстовые чаты.

Система стала известна в январе 2024 года после появления демонстрационных видео, быстро набравших популярность в соцсетях. Она вызвала интерес не только среди специалистов по искусственному интеллекту и японскому языку, но и среди студентов, осваивающих речь. Возможность отрабатывать навыки с «реалистичным» партнёром стала серьёзным подспорьем в учебном процессе.

Помимо образовательного применения, активно развиваются сценарии интеграции J-Moshi в клиентский сервис, здравоохранение и сферу публичных коммуникаций. Система уже применяется в роботизированных стойках информации на вокзалах, в музеях и административных центрах.

Роботы ведут стандартные диалоги, а при появлении сложных запросов могут автоматически переключить пользователя на оператора-человека. В медицине разрабатываются формы использования для ведения предварительных опросов и сопровождения пациентов.

Расширение применения в специализированных отраслях пока затруднено. Одна из главных причин — нехватка оцифрованных речевых материалов в технической и профессиональной лексике.

Кроме того, в Японии сохраняются строгие ограничения по конфиденциальности, что препятствует сбору новых аудиоданных. Решением стала технология разделения голосов на многоголосых записях, позволяющая извлекать отдельные реплики и использовать их для обучения ИИ без нарушения приватности.

Ещё по теме:

Мы в Telegram, на Дзен, в Google News и YouTube

Японская ИИ-система J-Moshi воспроизводит живую речь и уже работает в колл-центрах, музеях и медицинских сервисах

Кирилл Поляков

Некоторые iPhone могут запретить в США из-за украденных OLED-технологий

Разработчиков возмутило, что Apple собирается удалить игру, не обновлявшуюся 7 лет