Новые исследования Apple: как нейросети понимают пространство и распознают язык жестов

Вопреки слухам о стагнации, новые публикации в блоге Apple Machine Learning демонстрируют, что компания активно изучает применение больших языковых моделей (LLM) для таких сложных задач, как аннотирование языка жестов и создание 3D-моделей человеческих голов. Кроме того, исследователи Apple разработали новую систему тестирования, которая оценивает так называемый пространственно-функциональный интеллект ИИ-моделей.

Зачем нейросетям понимать пространство

В исследовании, посвящённом пространственно-функциональному интеллекту мультимодальных LLM, представлена новая система оценки нейросетей. Команда Apple создала бенчмарк, который прицельно проверяет способности ИИ к пространственному мышлению.

По мнению авторов исследования, чтобы нейросеть могла воспринимать окружающую среду так же, как человек, ей необходимы два ключевых навыка. Во-первых, нужно пространственное представление (понимание того, где находятся объекты и как они расположены относительно друг друга). Во-вторых — функциональное представление (осознание предназначения объектов, их возможностей и контекста использования). Проще говоря, мультимодальная модель должна не только видеть планировку помещения, но и понимать, зачем нужны находящиеся в нём предметы и почему они лежат именно там.

Исследователи отмечают, что существующие тесты в основном оценивают лишь пространственное мышление, игнорируя функциональный аспект. Чтобы восполнить этот пробел, Apple представила новый бенчмарк под названием SFI-Bench. Он включает 1555 запросов, составленных экспертами на основе 134 видеозаписей различных интерьеров.

Бенчмарк проверяет, может ли ИИ определить предназначение объекта, его местоположение, способы использования, а также предложить варианты решения проблем, если что-то сломалось.

Apple протестировала с помощью SFI-Bench несколько открытых и проприетарных моделей. Ожидаемо, лучшие результаты показала Google Gemini 3.1 Pro. На втором месте оказалась модель от OpenAI, а третье место заняла упрощённая версия Gemini.

При этом исследование выявило общую слабость современных ИИ-моделей: они с трудом справляются с условным подсчётом, что указывает на проблемы с логическим мышлением и пространственной памятью. Нейросетям пока тяжело связывать визуальное восприятие с внешними знаниями. Примечательно, что модели с доступом в интернет показали себя заметно лучше автономных версий.

Распознавание языка жестов

Ещё одно исследование Apple посвящено использованию искусственного интеллекта для аннотирования видео на языке жестов. Разработчики создали систему, которая принимает на вход видео и английский текст, а затем выдаёт вероятные аннотации, включая тайм-коды для отдельных жестов (глоссов) и дактилирования (чтения по буквам). Эта технология призвана значительно сократить время и затраты на ручную разметку длинных видео с сурдопереводом.

Для тестирования использовалась модель Claude, которой поручили переводить глоссы в связный английский текст. И хотя впереди ещё много работы, исследователи уверены, что подобные нейросети для распознавания жестов можно обучать на скромных графических процессорах (GPU) и применять для улучшения систем автоматической разметки.

Вероятно, этот проект связан с активными слухами о разработке наушников AirPods со встроенными камерами. Если технология окажется успешной, в будущем функция «Живого перевода» (Live Translation) сможет понимать язык жестов.

Создание 3D-моделей голов из фотографий

Третья работа посвящена реконструкции 3D-моделей голов из обычных изображений. Исследователи Apple представили HeadsUp — масштабируемый метод создания высококачественных 3D-моделей с использованием данных с многокамерных установок.

По сути, алгоритм преобразует различные ракурсы головы в облака точек (гауссианы), из которых затем формируются полноценные 3D-модели. Для проверки методики авторы использовали внутреннюю базу данных, включающую более 10 000 человек — это значительно больше, чем в существующих открытых датасетах.

В результате HeadsUp позволяет создавать 3D-модели людей, которых не было в обучающей выборке, причём без необходимости дополнительной оптимизации в процессе работы.

Все эти исследования подтверждают, что компания не снижает темпов и продолжает инвестировать серьёзные ресурсы в развитие ИИ и пространственных вычислений.

Ещё по теме:

Мы в Telegram, на Дзен, в Google News и YouTube

Новые исследования Apple: как нейросети понимают пространство и распознают язык жестов

Зачем нейросетям понимать пространство

Распознавание языка жестов

Создание 3D-моделей голов из фотографий

София Лайтман

Стив Джобс стал лицом новой долларовой монеты США

Apple ввела жёсткие правила для букмекерских приложений в Бразилии