Робототехническая компания 1X, поддерживаемая OpenAI, выпустила видео, на котором группа роботов на колёсах переходит от одной простой задачи к другой, приводя в порядок офисное помещение, руководствуясь голосовым интерфейсом на естественном языке.

Компания Halodi Robotics была основана в 2014 году для создания роботов общего назначения, которые будут трудиться вместе с человеком на рабочем месте. Первоначально штаб-квартира компании располагалась в Норвегии, но в 2019 году появилась вторая производственная база в Калифорнии, и именно тогда впервые был представлен предсерийный прототип гуманоида на колёсах под названием Eve (Ева).

Halodi превратилась в 1X и заключила партнёрское соглашение с OpenAI в 2022 году, чтобы объединить робототехнику и ИИ и заложить основу для реализации технологии самообучения. Хотя в планах компании есть двуногий робот, а также человекоподобные руки, на данный момент основное внимание разработчиков сосредоточено на обучении Евы навыкам работе на производстве, где боты будут «понимать естественный язык и физическое пространство, чтобы они могли выполнять реальные задачи».

Разработчики 1X рассказали, что разработали интерфейс на естественном языке, который позволяет оператору управлять несколькими гуманоидами с помощью голосовых команд, а робот-помощник будет использовать ряд заученных действий для выполнения сложных задач.

В марте компания сообщила, что ей удалось разработать автономную модель, которая объединила в одной поведенческой модели ИИ большое количество задач, включая извлечение предметов из сумки для покупок и последующее решение, куда их положить, вытирание пролитых жидкостей и складывание рубашек.

В 1X отмечают, что улучшение поведения одной задачи в рамках относительно небольшой многозадачной модели может негативно сказаться на поведении других задач в рамках этой модели. Это можно исправить, увеличив количество параметров, но за счёт увеличения времени обучения и замедления разработки.

В 1X утверждают, что гуманоиды Ева на видео выше не управляются с помощью оператора, а все действия контролируются нейронной сетью. Здесь также нет компьютерной графики, «нарезки, ускорения видео или воспроизведения по сценарию». Следующим шагом станет интеграция в систему моделей языка зрения, таких как GPT-4o, VILA и Gemini Vision.


Ещё по теме: