Alibaba представила новую модель синтеза речи

А ещё дала сообществу инструмент для моментального клонирования голоса

2 мин.
Alibaba представила новую модель синтеза речи

Alibaba Cloud открыла доступ к набору голосовых нейросетей под названием Qwen3-TTS. Это не просто технический пакет, а целая система, в которой совмещены генерация аудиофайлов по тексту, клонирование голоса по короткому образцу и возможность управлять звучанием при помощи простых текстовых инструкций. Здесь говорится про синтез, где человеческий голос можно создать, задать по описанию или воспроизвести с минимального фрагмента — буквально за 3 секунды.

Новый релиз имеетт три модели, каждая со своими возможностями. Базовый вариант ориентирован на быструю и качественную озвучку, ветка CustomVoice позволяет настраивать голос под нужный стиль, а VoiceDesign предлагает пользователю описывать будущий результат при помощи привычного языка, т. к. можно задать, каким будет тембр, ритм, эмоциональный оттенок. Это приближает систему к продюсерскому и редакторскому использованию, где ценится удобство настройки без сложных акустических параметров.

Техническое устройство Qwen3-TTS базируется на современных разработках, которые оттесняют традиционные голосовые решения последних лет. В отчёте, опубликованном командой Alibaba, отмечена архитектура, ориентированная на разные задачи — от высокодетализированного звучания до работы в реальном времени. 

Там же описано применение двух токенизаторов, в числе которых отдельное внимание уделено 12Hz-версии. Именно она обеспечивает сверхнизкую задержку, потому что звук начинает воспроизводиться почти сразу после запуска генерации, что делает модель подходящей для разговорных интерфейсов и ассистентов, работающих без задержек.

Наибольший интерес у технического сообщества вызывает функция быстрого копирования голоса. В материалах разработчиков обозначена способность клонировать голос по 3-секундному аудиоотрывку. 

Разработчики из сторонних проектов уже показали, как эта технология работает на платформе Hugging Face — пользователь записывает образец, загружает его в интерфейс, и система возвращает речь в том же тембре, но с другим содержанием. Это уже не лабораторный эксперимент и не студийная диковина, т. к. технология вышла в открытое применение. 

Запустить её можно даже через браузер, если доступен сервер или удалённый вычислительный ресурс, поддерживающий генерацию.

Важная часть релиза — юридические условия. Alibaba выбрала лицензию Apache-2.0, известную тем, что она не ограничивает коммерческое использование и легко интегрируется в бизнес-продукты. 

Это один из признаков того, что компания стремится развивать экосистему вокруг своих решений и стимулирует использование своих моделей на сторонних платформах. 

Распространение организовано через GitHub и Hugging Face. Пользователям доступны как сами модели объёмом 0,6B и 1,7B, так и отдельные элементы токенизации, нужные для работы в режиме потоковой озвучки.

Фон, на котором происходит этот релиз, связан с масштабной стратегией Alibaba в области искусственного интеллекта. Как отмечали журналисты агентства Reuters, за последние два года компания последовательно развивала направление Qwen. Разговор шёл не только о корпоративной инфраструктуре, но и о сервисах, предназначенных для пользователей. В начале 2026 года издание сообщало об обновлении мобильного приложения Qwen, где упор был сделан на применение ИИ для планирования задач и операций в экосистеме Alibaba.

В то же время компания не отказывается от коммерческого направления. В документации Alibaba Cloud Model Studio фигурирует отдельный сервис под названием Qwen3-TTS-Flash. Он предлагает 49 предустановленных голосов, мультиязычную поддержку и работает по тарификации — $0,10 за 10 000 символов с ограничением в 600 символов на один запрос. Есть поддержка русского языка, а также ряд других распространённых. Это позволяет запускать сервис в продуктовых решениях, где важна стабильность, наличие договорных условий и предсказуемая нагрузка.

Мы в Telegram, на Дзен, в Google News и YouTube



ePN