Из Super Mario Bros. сделали новый бенчмарк для ИИ

Новая арена испытаний для искусственного интеллекта

2 мин.
Из Super Mario Bros. сделали новый бенчмарк для ИИ

Сложно ли считать игру Pokémon серьёзным испытанием для искусственного интеллекта? По мнению одной группы исследователей, культовая игра Super Mario Bros. ставит для ИИ ещё более высокую планку. Специалисты из Hao AI Lab при Калифорнийском университете в Сан-Диего протестировали несколько ИИ-моделей в култовом проекте от Nintendo. Лучший результат показал Claude 3.7 от Anthropic, за ним — Claude 3.5, а вот Gemini 1.5 Pro от Google и GPT-4o от OpenAI справились с игрой хуже.

Конечно, это не оригинальная версия Super Mario Bros. 1985 года: она была запущена в эмуляторе и интегрирована с фреймворком GamingAgent, который предоставил нейросетям контроль над управлением. Система GamingAgent, созданная Hao, передавала моделям базовые инструкции вроде «Если рядом препятствие или враг, переместись/прыгай налево, чтобы увернуться», а также скриншоты из игры. На основе этих данных ИИ формировал команды в виде Python-кода для управления персонажем.

По словам разработчиков, игра заставляла каждую модель «учиться» планировать сложные манёвры и вырабатывать собственные стратегии. Любопытно, что так называемые «reasoning» модели (например, o1 от OpenAI), которые пошагово «обдумывают» задачу, сдали позиции более «простым» моделям — хотя обычно на большинстве тестов рассуждающие алгоритмы показывают более высокие результаты. Исследователи полагают, что проблема кроется во времени принятия решений: подобным нейросетям нужно несколько секунд на каждый шаг, а в Super Mario Bros. счёт идёт на мгновения, когда одно промедление может стоить жизни персонажу.

Игры давно используются для измерения возможностей искусственного интеллекта, однако некоторые эксперты сомневаются, можно ли напрямую проводить параллели между геймерскими навыками ИИ и его технологическим развитием. В отличие от реального мира, игры более абстрактны, обладают ограниченным набором правил и при этом предоставляют фактически бесконечный объём данных для обучения.

Широкий интерес к громким игровым тестам поднимает тему так называемого «кризиса оценки», о котором говорит Андрэй Карпати, научный сотрудник и один из основателей OpenAI. Он признаётся:

«Я не знаю, на какие показатели [ИИ] сейчас смотреть», — написал он в соцсети X. «TLDR моя оценка такова: я не знаю, насколько хороши эти модели сейчас».

Ну, как минимум, у нас есть возможность наблюдать за тем, как нейросети управля­ют Марио и проходят игры.


Ещё по теме:

Мы в Telegram, на Дзен, в Google News и YouTube