Робототехническая компания 1X, поддерживаемая OpenAI, выпустила видео, на котором группа роботов на колёсах переходит от одной простой задачи к другой, приводя в порядок офисное помещение, руководствуясь голосовым интерфейсом на естественном языке.
Компания Halodi Robotics была основана в 2014 году для создания роботов общего назначения, которые будут трудиться вместе с человеком на рабочем месте. Первоначально штаб-квартира компании располагалась в Норвегии, но в 2019 году появилась вторая производственная база в Калифорнии, и именно тогда впервые был представлен предсерийный прототип гуманоида на колёсах под названием Eve (Ева).
Halodi превратилась в 1X и заключила партнёрское соглашение с OpenAI в 2022 году, чтобы объединить робототехнику и ИИ и заложить основу для реализации технологии самообучения. Хотя в планах компании есть двуногий робот, а также человекоподобные руки, на данный момент основное внимание разработчиков сосредоточено на обучении Евы навыкам работе на производстве, где боты будут «понимать естественный язык и физическое пространство, чтобы они могли выполнять реальные задачи».
Разработчики 1X рассказали, что разработали интерфейс на естественном языке, который позволяет оператору управлять несколькими гуманоидами с помощью голосовых команд, а робот-помощник будет использовать ряд заученных действий для выполнения сложных задач.
В марте компания сообщила, что ей удалось разработать автономную модель, которая объединила в одной поведенческой модели ИИ большое количество задач, включая извлечение предметов из сумки для покупок и последующее решение, куда их положить, вытирание пролитых жидкостей и складывание рубашек.
В 1X отмечают, что улучшение поведения одной задачи в рамках относительно небольшой многозадачной модели может негативно сказаться на поведении других задач в рамках этой модели. Это можно исправить, увеличив количество параметров, но за счёт увеличения времени обучения и замедления разработки.
В 1X утверждают, что гуманоиды Ева на видео выше не управляются с помощью оператора, а все действия контролируются нейронной сетью. Здесь также нет компьютерной графики, «нарезки, ускорения видео или воспроизведения по сценарию». Следующим шагом станет интеграция в систему моделей языка зрения, таких как GPT-4o, VILA и Gemini Vision.
Ещё по теме:
- Глава OpenAI признался, что его компания не до конца понимает, как работает ChatGPT
- Российский космонавт Кононенко первым в мире суммарно провёл в космосе 1000 суток
- «Тинькофф» становится Т-Банком: Новый этап в развитии известного банка