Разработка японских инженеров J-Moshi стала настоящей революцией речевых моделей искусственного интеллекта. Эта система впервые в истории сфокусировалась на воспроизведении реальных разговорных привычек японцев, в том числе характерных для языка коротких реплик, известных как «айзути».
Фразы вроде «верно» и «понятно», используемые для демонстрации внимания к собеседнику, J-Moshi произносит с естественной паузой и в подходящий момент, что создаёт эффект живого диалога (примеры доступны на сайте компании).
В отличие от большинства ИИ-моделей, которые по-прежнему испытывают трудности с ведением диалога в реальном времени, J-Moshi умеет одновременно слушать и говорить. Эта особенность вывела качество общения на новый уровень, особенно для носителей японского языка, отмечающих, что взаимодействие с ИИ теперь мало отличается от беседы с человеком.
Проект был реализован в Университете Нагоя на базе англоязычной платформы Moshi, разработанной Kyutai. На адаптацию под японский ушло около четырёх месяцев. За это время была проведена масштабная работа с крупнейшими доступными корпусами устной речи.
Важнейшую роль сыграл J-CHAT — массивный набор японских диалогов, подготовленный Токийским университетом, включающий более 67 тыс. часов подкастов и видеороликов с YouTube. Чтобы расширить лингвистическое разнообразие, команда использовала устаревшие, но качественные записи разговоров, а также преобразованные в аудио текстовые чаты.
Система стала известна в январе 2024 года после появления демонстрационных видео, быстро набравших популярность в соцсетях. Она вызвала интерес не только среди специалистов по искусственному интеллекту и японскому языку, но и среди студентов, осваивающих речь. Возможность отрабатывать навыки с «реалистичным» партнёром стала серьёзным подспорьем в учебном процессе.
Помимо образовательного применения, активно развиваются сценарии интеграции J-Moshi в клиентский сервис, здравоохранение и сферу публичных коммуникаций. Система уже применяется в роботизированных стойках информации на вокзалах, в музеях и административных центрах.
Роботы ведут стандартные диалоги, а при появлении сложных запросов могут автоматически переключить пользователя на оператора-человека. В медицине разрабатываются формы использования для ведения предварительных опросов и сопровождения пациентов.
Расширение применения в специализированных отраслях пока затруднено. Одна из главных причин — нехватка оцифрованных речевых материалов в технической и профессиональной лексике.
Кроме того, в Японии сохраняются строгие ограничения по конфиденциальности, что препятствует сбору новых аудиоданных. Решением стала технология разделения голосов на многоголосых записях, позволяющая извлекать отдельные реплики и использовать их для обучения ИИ без нарушения приватности.
Ещё по теме:
- Некоторые iPhone могут запретить в США из-за украденных OLED-технологий
- Сенатор Шейкин: штрафы за VPN не затронут обычных пользователей
- Учёные разработали анализ крови, определяющий, насколько быстро стареют ваши органы