Apple обучает роботов, показывая им, как действуют люди от первого лица

В новой научной работе под названием «Humanoid Policy ∼ Human Policy» исследователи Apple представили инновационный способ обучения гуманоидных роботов: с помощью видео, записанных реальными людьми от первого лица. Причём в качестве инструмента захвата использовалась гарнитура Apple Vision Pro.

Робот смотрит — робот повторяет

Проект реализован в сотрудничестве с MIT, Carnegie Mellon, Университетом Вашингтона и UC San Diego.

Исследователи изучали, как видео с камер, установленных от первого лица, где люди взаимодействуют с предметами, могут использоваться для обучения универсальных моделей поведения роботов.

В общей сложности команда собрала более 25 000 демонстраций от людей и 1500 — от роботов, создав датасет под названием PH2D, который затем использовался для обучения единой модели управления реальным гуманоидным роботом.

Быстро и дёшево: как собирали данные

Чтобы собрать обучающие данные, команда разработала приложение для Apple Vision Pro, которое использует нижнюю левую камеру устройства и отслеживает движения головы и рук с помощью ARKit.

Для удешевления процесса они также напечатали 3D-крепление, чтобы установить камеру ZED Mini Stereo на другие гарнитуры, например на Quest 3 — это дало аналогичное представление об отслеживании движений, но за меньшие деньги.

Получившаяся система позволила записывать качественные демонстрации за считанные секунды, что значительно эффективнее по сравнению с традиционным управлением роботом вручную — медленным, затратным и трудным для масштабирования.

Ещё одна интересная деталь: поскольку люди двигаются гораздо быстрее роботов, исследователи замедлили видео с человеческими действиями в 4 раза, чтобы роботы могли обучаться в комфортном темпе — без дополнительных корректировок.

Главный элемент — Human Action Transformer (HAT)

Ключевым компонентом исследования стала модель HAT (Human Action Transformer), обученная на совместных демонстрациях от людей и роботов в одном формате.

Вместо того чтобы делить данные на два набора — «человеческие» и «роботизированные» — HAT осваивает единую политику, которая подходит для обоих типов «тел». Это делает систему более гибкой и эффективной.

В ряде тестов такой подход помог роботам справляться со сложными задачами, включая те, которых они ранее не видели, — лучше, чем при использовании традиционных методов.

PH2D стал одним из крупнейших наборов данных в этой области и, по мнению исследователей, открыл путь к более масштабируемому и доступному обучению гуманоидных роботов. Для тех, кто интересуется робототехникой и ИИ, это исследование определённо заслуживает внимания.

Ещё по теме:

Мы в Telegram, на Дзен, в Google News и YouTube

Apple обучает роботов, показывая им, как действуют люди от первого лица

Робот смотрит — робот повторяет

Быстро и дёшево: как собирали данные

Главный элемент — Human Action Transformer (HAT)

Дима Кутузов

AirPods по-прежнему вне конкуренции: Apple укрепила лидерство на рынке наушников в 2025 году

Apple официально признала iPhone 7 Plus и iPhone 8 винтажными продуктами