Nvidia выложила исходный код Audio2Face для генерации лицевой анимации по голосу

Технология автоматической лицевой анимации Audio2Face от Nvidia стала доступна в открытом доступе. Компания опубликовала исходные файлы, в т. ч. модели, SDK и инструменты дообучения, позволив разработчикам адаптировать систему под индивидуальные задачи и внедрять её в собственные проекты.

Audio2Face построена на использовании акустических признаков речи. Нейросеть анализирует интонацию, ритм, тембр и другие характеристики аудио, после чего синтезирует реалистичное движение губ и выражения лица цифрового персонажа. Решение позволяет сократить объём ручной работы при создании лицевой анимации и ускоряет производство.

Видео в Telegram: https://t.me/applespbevent_video/222

Технология подходит как для использования в записи, так и в реальном времени. Пользователи могут интегрировать Audio2Face в интерактивные среды, такие как игровые движки, виртуальные собеседники или образовательные платформы с аватарами.

Прямой эфир позволяет отслеживать и отображать мимику синхронно с голосом, что актуально для трансляций, презентаций и живого общения в виртуальной среде.

В пакет, выложенный Nvidia, входит также фреймворк для кастомизации. С его помощью студии смогут модифицировать поведение модели, адаптируя её под уникальные стили, персонажи или языковые особенности. Поддержка масштабирования открывает широкие возможности как для AAA‑проектов, так и для независимых разработчиков.

Уже сейчас Audio2Face используется в индустрии. Технология применялась при создании лицевой анимации в Chernobylite 2 и F1 25, где она позволила добиться высокого уровня реалистичности без привлечения большого числа аниматоров.

Ещё по теме:

Мы в Telegram, на Дзен, в Google News и YouTube

Nvidia выложила исходный код Audio2Face для генерации лицевой анимации по голосу

Кирилл Поляков

Учёные выявили тревожную динамику в энергопотреблении ИИ

Вредоносное ПО XCSSET для macOS научилось воровать криптовалюту через браузер Firefox