Genie 2 от DeepMind может создавать интерактивные миры, похожие на видеоигры

Исследовательская организация Google в области искусственного интеллекта, DeepMind, представила модель под названием Genie 2, способную генерировать «бесконечное» разнообразие игровых 3D-миров.

Genie 2 является преемником модели Genie, выпущенной ранее в этом году. Она может создавать интерактивные сцены в реальном времени из одного изображения и текстового описания.

DeepMind утверждает, что Genie 2 способна генерировать «огромное разнообразие богатых 3D-миров», включая такие, где пользователи могут выполнять действия вроде прыжков и плавания, используя мышь или клавиатуру. Обученная на видеоматериалах, модель может симулировать взаимодействие объектов, анимацию, освещение, физику, отражения и поведение NPC.

Уже сейчас многие симуляции Genie 2 выглядят как проекты ААА-класса. Это может быть связано с тем, что в обучающих данных модели содержатся прохождения популярных игр. Однако DeepMind, как и многие другие лаборатории ИИ, не раскрывает подробностей о методах сбора данных, будь то по конкурентным или иным причинам.

Возникают вопросы относительно последствий для интеллектуальной собственности. DeepMind, будучи дочерней компанией Google, имеет неограниченный доступ к YouTube, и Google ранее подразумевала, что её условия обслуживания позволяют использовать видео с платформы для обучения моделей. Но не создаёт ли Genie 2 несанкционированные копии видеоигр, которые она «просмотрела»? Это, возможно, вопрос для будущего судебного разбирательства.

DeepMind сообщает, что Genie 2 может генерировать последовательные миры с разными перспективами, такими как вид от первого лица и изометрический вид, продолжительностью до минуты, при этом большинство сцен длится от 10 до 20 секунд.

Большинство моделей, подобных Genie 2, способны симулировать игры и 3D-среды, но сталкиваются с проблемами артефактов, несоответствий и так называемых галлюцинаций. Например, симулятор Minecraft от Decart под названием Oasis имеет низкое разрешение и быстро «забывает» план созданных им же уровней.

Однако Genie 2 может запоминать части симулированной сцены, которые не находятся в поле зрения, и точно отображать их, когда они снова становятся видимыми.

Игры, созданные с помощью Genie 2, возможно, не будут очень увлекательными, учитывая, что они стирают ваш прогресс каждые минуту или около того. Поэтому DeepMind позиционирует модель скорее как исследовательский и творческий инструмент — средство для прототипирования «интерактивных впечатлений» и оценки возможностей ИИ.

Google продолжает инвестировать всё больше ресурсов в исследования моделей, которые обещают стать следующим большим шагом в области ИИ. В октябре DeepMind наняла Тима Брукса, руководившего разработкой видеогенератора Sora в OpenAI, для работы над технологиями генерации видео и симуляторами миров. А два года назад лаборатория переманила Тима Роктэшеля, известного своими экспериментами с «открытым концом» в видеоиграх, таких как NetHack, из компании Марка Цукерберга.

Ещё по теме: