Новая нейросететь для автоматического дубляжа роликов сохраняет оригинальный голос и переводит речь на 29 языков

Внутри есть несколько примеров, которые вам понравятся

3 мин.
Новая нейросететь для автоматического дубляжа роликов сохраняет оригинальный голос и переводит речь на 29 языков

В последнее время нейросетевые инструменты для синтеза речи становятся всё более популярными. Одной из новых звёзд на этом поле является компания ElevenLabs. Они разработали инновационный продукт, который позволяет автоматически дублировать ролики на разных языках с помощью нейронных сетей.

Один из ключевых аспектов этого инструмента – его многоязычность. Он поддерживает 29 языков, включая такие широко используемые языки, как русский, английский и китайский. Это открывает огромные возможности для создания многоязычного контента и увеличения его охвата аудиторией.

Инструмент похож на продукт, который уже набрал виральную популярность – HeyGen. Однако новый инструмент от ElevenLabs также распознаёт и переводит речь, сохраняя оригинальный тон и произношение. Он даже способен распознавать нескольких говорящих, что делает его ещё более гибким и удобным для использования.

Одна из больших преимуществ его заключается в способности дублировать ролики с популярных платформ, таких как YouTube, TikTok, Vimeo и Twitter. Это означает, что пользователи могут легко переводить и дублировать свой видеоконтент на разные языки, расширяя аудиторию и повышая его доступность для людей со всего мира.

Однако, как и любой другой продукт, у этого инструмента есть свои ограничения. Например, создатели установили ограничение на длину обрабатываемых видео – не более 5 минут. Также есть ограничение на объём текста – до 10 тысяч символов, что обычно хватает на 5-6 минут речи. Это может быть недостатком для тех, кто хочет переозвучить более длинные видео, но в целом, это ограничение позволяет обеспечить качество и точность синтезированной речи.

Ещё одним ограничением является сложность работы с большим числом спикеров. Нейросеть может запутаться в различных голосах и не всегда справляется с синхронизацией речи с движениями губ. Также музыка и другие звуковые эффекты могут вызывать артефакты и перепады громкости. Это может сделать инструмент не совсем подходящим для переозвучки трейлеров, где точность и качество звука играют важную роль. Однако, для создания смешных видео или перевода контента из социальных сетей, этот инструмент отлично подходит.

Сеть уже нашла применение в сфере перевода. Некоторые пользователи используют инструмент для перевода видео-контента. Например, популярный ютубер Женя Мацкевич, известный своим каналом «Джимми Нейрон» (откуда взяты примеры) использовал инструмент, чтобы сделать Сергея Дружко произнести мемную реплику на английском языке. Результат был настолько реалистичным, что оригинал и подделка были практически неотличимы.

В целом, новый нейросетевой инструмент от ElevenLabs предлагает удивительные возможности для автоматического дубляжа роликов на разных языках. С его помощью можно создавать многоязычный контент, расширять аудиторию и делать видео более доступными для людей со всего мира.

Однако, несмотря на все достижения в этой области, они все еще затрудняются воспроизводить и передавать эмоциональные нюансы, которые так характерны для человеческого голоса.

Примером этого может служить знаменитый пробный ролик Сэмюэля Л. Джексона, где тот произносит монолог из фильма «Змеиный полёт» и жалуется на «черто́вых змей на этом черто́вом самолете». В оригинале актёр использует сильную эмоциональную окраску, называя их «motherfucking snakes». Однако, нейросети пока не могут точно передать эти эмоции, и в результате получается либо слишком громкий и кричащий дубляж, либо спокойный и нейтральный.

Проблема заключается в том, что нейросети пока не могут полностью понять и улавливать контекст и нюансы, которые человек легко воспринимает. Например, когда спикер меняет интонацию в видео, нейросеть может пропустить этот сдвиг и продолжить говорить с одинаковым тоном до конца монолога. Это ограничение может быть препятствием при создании качественных дубляжей и синтезированных голосовых сообщений.

Другим примером того, как сложно для нейросетей передавать эмоциональную силу голоса, является легендарная речь «Just Do It» от Шайи ЛаБафа. В этой речи актёр в основном кричит и произносит фразы на русском языке с небольшим акцентом. Нейросети могут воспроизвести эти слова, но им трудно передать ту же энергию и страсть, которую ЛаБаф вкладывает в свою речь.

Несмотря на некоторые ограничения, этот инструмент предоставляет удобный и эффективный способ сделать видео более интернациональными и привлекательными для больше аудитории.

P.S.

А так, например, выглядит «дубляж» трейлера предстоящей драмы «Стальная хватка» от студии А24. Но в этом случае, конечно, лучше будет дождаться официального кинотеатрального релиза.


Ещё по теме:

Мы в Telegram, на Дзен, в Google News и YouTube