«Сбер» представил нейросеть Kandinsky Video с возможностью генерации роликов по тексту

«Сбер» выпустил два новых продукта, работающих с помощью ИИ. Одним из них стала модель Kandinsky 3.0 — это улучшенная версия нейросети, которая способна создавать изображения по текстовым запросам. Kandinsky 3.0 лучше распознаёт требования пользователя и выдаёт более реалистичные картинки.

Кроме того, нейросеть обучили элементам отечественного культурного кода. Это предоставляет возможность генерировать изображения, связанные с классическими персонажами из русских сказок вроде Бабы Яги, Нарышкинское барокко, жостовскую живопись и другие образы русской культуры.

Kandinsky 3.0 по умолчанию создаёт картинки в разрешении 1024 на 1024 пикселей, однако доступно и другое соотношение сторон. Также нейросеть может выдавать 4-секундные ролики в разрешении 640 на 640 пикселей с частотой 24 кадра в секунду. На это обычно уходит около полутора минут.

Другой продукт «Сбера» — это нейросеть Kandinsky Video, которая умеет создавать видео по текстовому описанию. Модель отличается от Kandinsky 3.0 тем, что может генерировать 8-секундные ролики. Разрешение в таком случае составляет 512 на 512 пикселей, частота — 30 кадров в секунду. Также можно выбрать соотношение сторон генерируемого видео.

Скорость работы нейросети примерно соотвествует генератору изображений Kandinsky 3.0 — одно видео создаётся примерно 3 минуты.

Ещё по теме: