Французская ИИ-лаборатория Mistral расширяет своё присутствие на рынке аудио. В четверг компания представила Voxtral TTS – модель синтеза речи (text-to-speech) с открытым исходным кодом. Нейросеть создавалась в первую очередь для корпоративных голосовых помощников, однако её главная особенность – компактность. Модель способна работать локально на так называемых периферийных устройствах: смартфонах, ноутбуках и даже умных часах.
Этот релиз означает, что Mistral вступает в прямую конкуренцию с лидерами быстрорастущего рынка голосового искусственного интеллекта – компаниями ElevenLabs, Deepgram и OpenAI.
Как работает Voxtral TTS
В основе новинки лежит Ministral 3B – небольшая языковая модель, которую Mistral специально оптимизировала для работы на портативных устройствах. На данный момент Voxtral TTS понимает и озвучивает текст на девяти языках: английском, французском, немецком, испанском, нидерландском, португальском, итальянском, хинди и арабском.
Одно из ключевых преимуществ модели – функция клонирования голоса. По заявлению разработчиков, алгоритму достаточно менее пяти секунд эталонного аудио, чтобы скопировать уникальный тембр. При этом нейросеть улавливает тончайшие акценты, особенности дикции и естественные речевые паттерны.
Вице-президент Mistral по научным исследованиям Пьер Сток в интервью изданию TechCrunch объяснил этот шаг просто:
«Наши клиенты просили речевую модель».
По его словам, получившийся продукт стоит лишь малую часть от того, что предлагают конкуренты, но при этом выдаёт результаты на уровне передовых мировых стандартов.
Скорость и «человечность»
Инженеры Mistral сделали ставку не только на компактность, но и на скорость. Чтобы начать воспроизводить сгенерированное аудио, модели требуется всего 90 миллисекунд (при обработке десятисекундного текста на 500 символов). Коэффициент реального времени (RTF) составляет 6x – это значит, что готовый аудиоролик длиной в десять секунд генерируется примерно за 1,6 секунды.
Пьер Сток отдельно подчеркнул, что разработчики намеренно добивались максимально живого, человеческого звучания, избегая «роботизированных» интонаций. Ещё одна важная деталь: Voxtral TTS умеет на лету переключаться между языками, полностью сохраняя характеристики исходного голоса. Эта функция критически важна для синхронного перевода и автоматического дубляжа видео.
Замкнутый цикл аудио
Выпуск Voxtral TTS логично завершает формирование звуковой экосистемы Mistral. Ранее в этом году компания уже представила Voxtral Transcribe 2 – систему распознавания речи (speech-to-text), которая умеет переводить голос в текст на тринадцати языках как в реальном времени, так и в пакетном режиме.
Теперь, когда у Mistral есть инструменты и для распознавания, и для генерации голоса, компания закрывает обе ключевые потребности рынка аудио-ИИ.
«Мы планируем создать полноценную платформу, способную обрабатывать мультимодальные потоки как на входе, так и на выходе – будь то аудио, текст или изображения», – отмечает Сток.
По его мнению, именно сквозные системы, работающие со звуком напрямую, позволяют сохранять и анализировать гораздо больше полезной информации.
Ставка на открытость
Главным оружием Mistral в борьбе с корпорациями вновь становится открытый исходный код. Новая модель распространяется по лицензии Apache 2.0. Это позволяет сторонним разработчикам свободно использовать и дообучать нейросеть под свои нужды – подход, который уже помог французам переманить часть аудитории у закрытых текстовых систем от Google и OpenAI.
Рынок, за который идёт борьба, выглядит крайне перспективным. По прогнозам аналитиков, к 2028 году индустрия технологий синтеза речи достигнет объёма в $26 млрд. А один из главных конкурентов Mistral в этой сфере, платформа ElevenLabs, уже сейчас оценивается почти в $3 млрд.