Alibaba Cloud предоставила всем желающим возможность опробовать новый набор моделей искусственного интеллекта, предназначенных для генерации видео. Новинка получила название Wan2.1.
В неё входят четыре разные модели, в том числе версии с 14 млрд и 1,3 млрд параметров. Каждая из них показывает отличные результаты в точности и качестве интерпретации заданий, заметно опережая конкурентов.
Эти модели умеют превращать в видео как текстовые описания, так и графику. Их главное достоинство — высокая правдоподобность движений и детализированное изображение. Впервые в подобном решении появилась поддержка текстовых эффектов сразу на китайском и английском языках. Помимо этого, модели успешно справляются со сложными движениями, прорабатывают пиксели и учитывают физику окружающего мира, что заметно повышает реализм итоговых роликов.
По результатам тестирования на платформе VBench, Wan2.1 достигла уровня 86,22%, заняв первое место среди аналогов. Это единственный инструмент с открытым кодом, сумевший попасть в топ-5 моделей на Hugging Face. Версия с 14 млрд параметров предназначена для создания видео с множеством деталей и динамичных сцен. При этом вариант с 1,3 млрд может работать даже на ноутбуке, формируя 5-секундный ролик в 480p всего за 4 минуты.

Если сравнивать с решениями от других разработчиков, среди которых LTX, Hunyuan и ряд платных систем, Wan2.1 показывает особенно высокое качество при генерации видео из текстовых и графических исходников. Пусть скорость обработки и уступает некоторым продуктам, финальный результат компенсирует этот минус.
Техническая основа модели представляет собой продвинутый видео-VAE — вариационный автоэнкодер, который формирует картинку более высокого качества по сравнению с другими инструментами, не скрывающими код. Модель способна воспроизводить сложные движения тела, плавные смены сцен и физику, максимально приближенную к реальности.
Механизм I2V (изображение в видео) начинается с подачи изображения, где маска указывает, какие фрагменты нужно оставить без изменений, а какие — воссоздать заново. Трёхмерный автоэнкодер сжимает исходные данные, затем модель DiT анализирует их при помощи расширенного канального слоя. В дело вступает кодировщик CLIP, который извлекает характеристики изображения для последующего контекстного использования. После этого VAE вновь расшифровывает картинку из сжатого состояния.
Все версии Wan2.1 можно загрузить на платформе Model Scope, а также на Hugging Face. К ним открыт доступ для специалистов в области науки, технических разработок и коммерческого сектора со всего мира. Кроме того, воспользоваться моделями можно и через сайт проекта Wan.
С 23 апреля 2025 года пользователям обещают новое улучшение интерфейса. Бесплатный режим Relax Mode позволит всем желающим генерировать как видео, так и изображения. Для тех, кто хочет ускорить процесс и получить дополнительные возможности, предусмотрена система членства. Она обеспечит ежемесячное пополнение бонусов, доступ к расширенным инструментам и приоритетную обработку данных в реальном времени.
Ещё по теме:
- Разработчик запустил Doom-подобную игру прямо в QR-коде
- Российские власти начали разбирательство в отношении Apple за распространение информации о смене пола и ЛГБТ*
- Макет iPhone 17 Air показали вживую: «ощущается как смартфон из будущего»