В новой научной работе под названием «Humanoid Policy ∼ Human Policy» исследователи Apple представили инновационный способ обучения гуманоидных роботов: с помощью видео, записанных реальными людьми от первого лица. Причём в качестве инструмента захвата использовалась гарнитура Apple Vision Pro.
Робот смотрит — робот повторяет
Проект реализован в сотрудничестве с MIT, Carnegie Mellon, Университетом Вашингтона и UC San Diego.
Исследователи изучали, как видео с камер, установленных от первого лица, где люди взаимодействуют с предметами, могут использоваться для обучения универсальных моделей поведения роботов.

В общей сложности команда собрала более 25 000 демонстраций от людей и 1500 — от роботов, создав датасет под названием PH2D, который затем использовался для обучения единой модели управления реальным гуманоидным роботом.
Быстро и дёшево: как собирали данные
Чтобы собрать обучающие данные, команда разработала приложение для Apple Vision Pro, которое использует нижнюю левую камеру устройства и отслеживает движения головы и рук с помощью ARKit.
Для удешевления процесса они также напечатали 3D-крепление, чтобы установить камеру ZED Mini Stereo на другие гарнитуры, например на Quest 3 — это дало аналогичное представление об отслеживании движений, но за меньшие деньги.

Получившаяся система позволила записывать качественные демонстрации за считанные секунды, что значительно эффективнее по сравнению с традиционным управлением роботом вручную — медленным, затратным и трудным для масштабирования.
Ещё одна интересная деталь: поскольку люди двигаются гораздо быстрее роботов, исследователи замедлили видео с человеческими действиями в 4 раза, чтобы роботы могли обучаться в комфортном темпе — без дополнительных корректировок.
Главный элемент — Human Action Transformer (HAT)
Ключевым компонентом исследования стала модель HAT (Human Action Transformer), обученная на совместных демонстрациях от людей и роботов в одном формате.
Вместо того чтобы делить данные на два набора — «человеческие» и «роботизированные» — HAT осваивает единую политику, которая подходит для обоих типов «тел». Это делает систему более гибкой и эффективной.
В ряде тестов такой подход помог роботам справляться со сложными задачами, включая те, которых они ранее не видели, — лучше, чем при использовании традиционных методов.
PH2D стал одним из крупнейших наборов данных в этой области и, по мнению исследователей, открыл путь к более масштабируемому и доступному обучению гуманоидных роботов. Для тех, кто интересуется робототехникой и ИИ, это исследование определённо заслуживает внимания.
Ещё по теме:
- AirPods по-прежнему вне конкуренции: Apple укрепила лидерство на рынке наушников в 2025 году
- OpenAI купила стартап Джони Айва за $6,5 млрд
- Apple готовит документальный сериал о Мартине Скорсезе