Подразделение Tongyi Lab, относящееся к Alibaba, представило Fun-CineForge — первую в мире модель для озвучивания фильмов, которая одновременно соединяет несколько модальностей и открыта для исследователей и разработчиков. На практике это означает, что модель умеет не просто озвучивать текст, а точно передавать эмоции и синхронизировать речь с движением губ.
Система решает четыре главные задачи дубляжа. Это синхронизация губ, эмоциональная выразительность, последовательность голосов персонажей и точное временное выравнивание, даже когда говорящий скрыт или отсутствует на экране. Fun-CineForge способна озвучивать сцены с несколькими героями, сохраняя целостность диалогов, и это серьёзное отличие от привычных ИИ-систем.
Модель опирается на набор данных CineDub, составленный из более 350 китайских и английских фильмов и сериалов. Автоматизированный процесс построения корпуса использует метод «цепочки мыслей», что снижает ошибки транскрипции до 1-2% и ошибки разделения говорящих до 1,2%. Для киноиндустрии это великолепный результат, учитывая сложность обработки сцен с несколькими персонажами.
Архитектура Fun-CineForge объединяет четыре модальности. Визуальная — анализ формы и выражения губ. Текстовая — эмоциональные оттенки диалогов. Звуковая — эталоны голосов. Временная — контроль момента появления речи и того, кто именно говорит. Эта комбинация позволяет синхронизировать звук и изображение даже в сложных кадрах, где лица не видны. Предыдущие системы с этим справлялись плохо.
Тестирование показало превосходство модели над базовыми системами вроде DeepDubber-V1 по точности распознавания слов, синхронизации губ и сохранению тембра голосов. Fun-CineForge впервые обрабатывает сцены с диалогами двух и более персонажей без потери качества звучания и выравнивания по времени.
Модель уверенно работает с видеоклипами длиной до 30 секунд, точно передавая эмоции и согласованность звучания. Это формирует новые возможности для дубляжа мультфильмов, анимации и сложных сцен, где раньше совпадение голоса с движением губ было серьёзной проблемой.
Открытый исходный код Fun-CineForge позволяет разработчикам интегрировать систему в собственные проекты, улучшать алгоритмы и создавать более живое, эмоционально насыщенное озвучивание для кино и анимации. На практике это сокращает разрыв между синтезированной речью и визуальной частью сцены, делая результат заметно более естественным.