Мы были свидетелями физических возможностей Spot – бегать, прыгать и танцевать, а теперь удивительная робо-собака позволяет ему ещё и разговаривать. В недавно опубликованном компанией Boston Dynamics видеоролике Spot в шляпе, усах и с огромными глазами вступает в беседу с сотрудниками, говоря с очаровательным британским акцентом, и ведёт их на экскурсию по объектам компании.
«Начнём наше путешествие?», – спрашивает робот. «Наш первый пункт назначения – зарядные станции, где роботы Spot отдыхают и подзаряжаются. Прошу следовать за мной, господа».
Как видно из демонстрации, Spot может отвечать на вопросы и даже имитировать речь, открывая «рот».
Для реализации «разговорных» способностей робота компания Boston Dynamics использовала API ChatGPT от OpenAI и открытые большие языковые модели (LLM) для обучения. Затем робот был оснащён динамиком для преобразования текста в речь, а его манипулятор был модифицирован для имитации речи, подобно рту куклы.
По словам Мэтта Клингенсмита, главного инженера-программиста Boston Dynamics, Spot был задан краткий сценарий для каждой комнаты на территории предприятия. Затем он объединил сценарий с данными, полученными от захвата с камер на корпусе, и получил дополнительную информацию о своём окружении, прежде чем сгенерировать ответ.
«Генератор тихо гудит в комнате, лишенной радости. Как и моя душа».
В ходе видеоролика Spot принимает различные обличья: утончённого дворецкого, археолога 1920-х годов, подростка и даже шекспировского путешественника во времени. Он даже может принимать саркастическое обличье, как это было продемонстрировано, когда его попросили придумать хайку: «Генератор тихо гудит в комнате, лишенной радости. Как и моя душа».
Экспериментируя со Spot в качестве гида, Boston Dynamics столкнулась с неожиданными сюрпризами. Когда робота спрашивали о его «родителях», он уверенно вёл команду к более старым моделям Spot, выставленным в офисе компании.
«Мы с энтузиазмом относимся к дальнейшим исследованиям сочетания искусственного интеллекта и робототехники», – пишет Клингенсмит в блоге на сайте Boston Dynamics. «Большие языковые модели могут привнести культурный контекст, общие знания и адаптивность, которые окажутся ценными для решения различных робототехнических задач».
Ещё по теме: