Mistral выпустила открытую голосовую модель для смартфонов и умных часов

Она поддерживает девять языков, копирует интонации по пятисекундному фрагменту и работает локально

2 мин.
Mistral выпустила открытую голосовую модель для смартфонов и умных часов

Французская ИИ-лаборатория Mistral расширяет своё присутствие на рынке аудио. В четверг компания представила Voxtral TTS – модель синтеза речи (text-to-speech) с открытым исходным кодом. Нейросеть создавалась в первую очередь для корпоративных голосовых помощников, однако её главная особенность – компактность. Модель способна работать локально на так называемых периферийных устройствах: смартфонах, ноутбуках и даже умных часах.

Этот релиз означает, что Mistral вступает в прямую конкуренцию с лидерами быстрорастущего рынка голосового искусственного интеллекта – компаниями ElevenLabs, Deepgram и OpenAI.

Как работает Voxtral TTS

В основе новинки лежит Ministral 3B – небольшая языковая модель, которую Mistral специально оптимизировала для работы на портативных устройствах. На данный момент Voxtral TTS понимает и озвучивает текст на девяти языках: английском, французском, немецком, испанском, нидерландском, португальском, итальянском, хинди и арабском.

Одно из ключевых преимуществ модели – функция клонирования голоса. По заявлению разработчиков, алгоритму достаточно менее пяти секунд эталонного аудио, чтобы скопировать уникальный тембр. При этом нейросеть улавливает тончайшие акценты, особенности дикции и естественные речевые паттерны.

Вице-президент Mistral по научным исследованиям Пьер Сток в интервью изданию TechCrunch объяснил этот шаг просто:

«Наши клиенты просили речевую модель».

По его словам, получившийся продукт стоит лишь малую часть от того, что предлагают конкуренты, но при этом выдаёт результаты на уровне передовых мировых стандартов.

Скорость и «человечность»

Инженеры Mistral сделали ставку не только на компактность, но и на скорость. Чтобы начать воспроизводить сгенерированное аудио, модели требуется всего 90 миллисекунд (при обработке десятисекундного текста на 500 символов). Коэффициент реального времени (RTF) составляет 6x – это значит, что готовый аудиоролик длиной в десять секунд генерируется примерно за 1,6 секунды.

Пьер Сток отдельно подчеркнул, что разработчики намеренно добивались максимально живого, человеческого звучания, избегая «роботизированных» интонаций. Ещё одна важная деталь: Voxtral TTS умеет на лету переключаться между языками, полностью сохраняя характеристики исходного голоса. Эта функция критически важна для синхронного перевода и автоматического дубляжа видео.

Замкнутый цикл аудио

Выпуск Voxtral TTS логично завершает формирование звуковой экосистемы Mistral. Ранее в этом году компания уже представила Voxtral Transcribe 2 – систему распознавания речи (speech-to-text), которая умеет переводить голос в текст на тринадцати языках как в реальном времени, так и в пакетном режиме.​

Теперь, когда у Mistral есть инструменты и для распознавания, и для генерации голоса, компания закрывает обе ключевые потребности рынка аудио-ИИ.

«Мы планируем создать полноценную платформу, способную обрабатывать мультимодальные потоки как на входе, так и на выходе – будь то аудио, текст или изображения», – отмечает Сток.

По его мнению, именно сквозные системы, работающие со звуком напрямую, позволяют сохранять и анализировать гораздо больше полезной информации.

Ставка на открытость

Главным оружием Mistral в борьбе с корпорациями вновь становится открытый исходный код. Новая модель распространяется по лицензии Apache 2.0. Это позволяет сторонним разработчикам свободно использовать и дообучать нейросеть под свои нужды – подход, который уже помог французам переманить часть аудитории у закрытых текстовых систем от Google и OpenAI.

Рынок, за который идёт борьба, выглядит крайне перспективным. По прогнозам аналитиков, к 2028 году индустрия технологий синтеза речи достигнет объёма в $26 млрд. А один из главных конкурентов Mistral в этой сфере, платформа ElevenLabs, уже сейчас оценивается почти в $3 млрд.

Мы в Telegram, на Дзен, в Google News и YouTube



ePN