Нейросеть от Apple превращает плоские снимки в трёхмерные сцены: модель SHARP работает быстрее секунды

Открытая нейросеть создаёт объёмные изображения всего из одного фото

2 мин.
Нейросеть от Apple превращает плоские снимки в трёхмерные сцены: модель SHARP работает быстрее секунды

Apple представила нейросетевую модель SHARP, которая преобразует обычную двумерную фотографию в фотореалистичную трёхмерную сцену меньше чем за секунду. Технология опубликована в формате открытого исходного кода, что позволяет разработчикам и исследователям по всему миру экспериментировать с новыми возможностями пространственного контента.

В основе SHARP лежит метод 3D Gaussian Splatting — трёхмерное представление сцены в виде миллионов мелких «капель» света и цвета, расположенных в пространстве. Традиционные подходы к гауссовскому сплэттингу требуют десятки или сотни снимков одной сцены с разных ракурсов, чтобы восстановить её объём. SHARP же способна предсказать полноценную трёхмерную структуру из единственного изображения за один проход через нейронную сеть.

Разработчики Apple обучили модель на огромных массивах синтетических и реальных данных, благодаря чему нейросеть научилась распознавать типичные паттерны глубины и геометрии в самых разных сюжетах. Получив новый снимок, SHARP оценивает глубину кадра, уточняет её на основе накопленного опыта и предсказывает позицию и внешний вид миллионов трёхмерных гауссиан за один раз. Это избавляет от необходимости в многократной съёмке или медленной покадровой оптимизации для каждой конкретной сцены.

Рекордные показатели скорости и качества

Согласно исследованию Apple, модель обрабатывает изображение на стандартном графическом процессоре менее чем за секунду, а затем воспроизводит трёхмерную сцену в режиме реального времени с частотой до 100 кадров в секунду и в высоком разрешении. В экспериментах SHARP продемонстрировала устойчивую zero-shot генерализацию на разных наборах данных — то есть способность работать с новыми изображениями без дополнительного обучения.

По метрикам качества SHARP устанавливает новый стандарт: показатель LPIPS снижен на 25–34%, а DISTS — на 21–43% по сравнению с лучшими предыдущими методами, при этом время синтеза сократилось на три порядка. Представление сцены, которое создаёт модель, имеет метрический масштаб с сохранением реальных расстояний и пропорций, что поддерживает перемещения виртуальной камеры в абсолютных единицах измерения.

Ограничения и перспективы

У SHARP есть осознанный компромисс: модель точно визуализирует только близлежащие ракурсы, а не синтезирует полностью невидимые части сцены. Иными словами, пользователь не может слишком далеко отклониться от исходной точки съёмки, поскольку нейросеть не «дофантазирует» то, что находится за кадром. Именно это ограничение позволяет SHARP работать столь быстро и генерировать более правдоподобный результат.​

Тем не менее пользователи в социальных сетях уже начали расширять возможности модели: некоторые публикуют не только статичные изображения, но и видеоролики, созданные на базе SHARP. Это выходит за рамки первоначального замысла разработчиков и намекает на то, как технология может эволюционировать в будущих исследованиях — например, для создания динамического пространственного контента, дополненной реальности или иммерсивной фотографии.

Apple опубликовала код, предобученные веса модели и подробную документацию в репозитории на GitHub. Результаты работы SHARP сохраняются в виде файлов формата 3D Gaussian Splatting (.ply), совместимых с широким спектром публичных рендереров. Модель может работать на компьютерах Mac без необходимости в CUDA, а для визуализации итоговых трёхмерных моделей достаточно встроенных в macOS инструментов. Единственное исключение — скрипт для создания видео с вращением вокруг объекта, который пока требует CUDA.

Мы в Telegram, на Дзен, в Google News и YouTube



ePN