Apple представила ИИ-модель для создания реалистичных 3D-объектов по одной фотографии

Исследователи из Apple разработали новую нейросеть, способную реконструировать полноценную трёхмерную модель на основе единственного плоского изображения. Главным достижением проекта стало то, что искусственный интеллект научился сохранять консистентность сложных визуальных эффектов (отражений и бликов) при смене угла обзора.

В чём суть технологии

Большинство существующих алгоритмов фокусируются либо на воссоздании формы объекта, либо на его базовой текстуре без учёта того, как на неё падает свет. Из-за этого при вращении сгенерированные 3D-модели часто выглядят плоскими или неестественными.

Новый подход Apple получил название LiTo (Surface Light Field Tokenization). Его архитектура опирается на так называемое «скрытое пространство» (latent space).

В машинном обучении этот термин означает метод сжатия информации до числовых значений, которые затем размещаются в многомерной системе координат. Это позволяет нейросети вычислять дистанцию между смыслами или образами. Классический пример из текстовых моделей: если взять математическое представление слова «король», вычесть из него значение слова «мужчина» и прибавить «женщина», алгоритм выдаст координаты слова «королева». Инженеры Apple применили аналогичную логику для работы с геометрией и физикой света.

От плоского кадра к объёму

Процесс создания 3D-объекта в LiTo разделён на два этапа. Сначала энкодер сжимает информацию о предмете с фотографии в компактный набор математических векторов. Алгоритм не пытается просто запомнить пиксели, а усваивает саму суть формы объекта и свойства его поверхности.

Затем в дело вступает декодер. Он разворачивает эти сжатые данные обратно в полноценный 3D-объект. Именно на этом этапе генерируется не только трёхмерная геометрия, но и зависимые от ракурса эффекты: например, зеркальные блики или сложные отражения Френеля при нестандартном освещении.

Как обучали нейросеть

Чтобы добиться такой точности, исследователям потребовался масштабный массив данных. Для тренировки использовались тысячи объектов, каждый из которых был визуализирован со 150 разных ракурсов и при трёх сценариях освещения.

При этом систему не снабжали готовыми изображениями целиком. Вместо этого нейросети показывали случайные небольшие фрагменты данных. Задача декодера заключалась в том, чтобы восстановить полный объект и его внешний вид при разных условиях только по этим обрывкам. Благодаря такому подходу ИИ выучил фундаментальные законы взаимодействия света и формы.

В финале инженеры обучили дополнительный алгоритм, который берёт обычную одиночную фотографию и предсказывает, как должен выглядеть её математический код в «скрытом пространстве». По результатам тестов, опубликованным Apple, новая архитектура LiTo заметно обходит аналоги — например, популярную модель TRELLIS — в реалистичности генерации сложных текстур и света.

Ещё по теме:

Мы в Telegram, на Дзен, в Google News и YouTube

Apple представила ИИ-модель для создания реалистичных 3D-объектов по одной фотографии

В чём суть технологии

От плоского кадра к объёму

Как обучали нейросеть

Дима Кутузов

Первый iPhone с разъёмом Lightning официально признан устаревшим

Apple поглотила польскую студию MotionVFX