Apple представила Depth Pro — ИИ-модель для создания трёхмерных объектов из 2D-изображений

Команда инженеров Apple разработала модель на основе искусственного интеллекта под названием Depth Pro, способную создавать глубинные карты из обычных 2D-изображений. Они опубликовали научную работу, описывающую приложение и его возможности, на сервере препринтов arXiv, а также разместили объявление на странице исследований машинного обучения компании.

Как работает Depth Pro

Люди и многие животные способны воспринимать глубину благодаря тому, что мозг обрабатывает два изображения от каждого глаза, используя различия между ними для определения расстояний до объектов. Некоторые видеокамеры используют схожий принцип для создания 3D-видео. Однако смартфоны, полагающиеся на одну камеру, обычно прибегают к дополнительным аппаратным и программным средствам для создания ощущения глубины.

Инженеры Apple в своём новом проекте смогли создать полноценную глубинную карту, используя данные из оригинального изображения без необходимости обращаться к метаданным, таким как внутренние параметры камеры.

Что такое глубинная карта

Глубинная карта — это изображение, созданное на основе всех пикселей оригинальной фотографии. Каждая точка на карте представляет отдельный пиксель и соответствует расстоянию между этой частью изображения и соответствующей частью заснятого объекта. По сути, это позволяет добавить ещё одно измерение к плоскому изображению, придавая ему 3D-эффект.

Создание такой карты позволяет генерировать 3D-эффекты, которые, по утверждению команды, более чёткие и реалистичные, чем те, которые создаются стандартными методами на смартфонах.

Преимущества и перспективы

В своём заявлении команда Apple поясняет, что приложения, использующие модель Depth Pro, способны создавать глубинную карту всего за 0,3 секунды при запуске на компьютере со стандартным GPU. При этом не требуется использовать типы данных камеры, которые обычно необходимы для создания 3D-эффектов.

Благодаря разработке модели, работающей с такой скоростью, Apple открывает возможности для создания 3D-изображений в реальном времени даже с использованием камеры с одной линзой. Это, по мнению команды, может иметь значительные последствия для робототехники и других приложений, требующих картирования в реальном времени, таких как системы автономных транспортных средств.

Разработка Depth Pro представляет собой существенный шаг вперёд в области обработки изображений и искусственного интеллекта. Возможность быстро и эффективно создавать глубинные карты из обычных 2D-изображений открывает новые горизонты для различных технологий, от улучшения качества фотографий до применения в передовых системах навигации и робототехники.

Ещё по теме: