Исследовательская платформа ARC Prize представила третье поколение эталонного теста на универсальный интеллект — ARC-AGI-3. Новый формат испытаний переносит модели ИИ из мира абстрактных головоломок в пространство интерактивных видеоигр. По итогам первых прогонах счёт оказался разгромным, у человека — 100, у ИИ — 0.
Если ранние версии ARC использовали статичные задачи с цветными схемами, то теперь система оценивает поведение в динамичной среде. Каждая из сотни оригинальных игр построена таким образом, чтобы выявлять способность к переносу навыков, вычленению закономерностей, адаптации к новым условиям и планированию. Механика напоминает то, как человек осваивает новые действия с раннего возраста — с минимумом объяснений, через наблюдение и попытки.
ARC-AGI-3 основывается на принципе, что интеллект — это не запас знаний, а умение обобщать, выводить правила и применять их в другом контексте.
Этот подход противопоставляется классическим бенчмаркам вроде MMLU или Big-Bench, которые часто проверяют узкие компетенции. В ARC упор делается на универсальность мышления и перенос идей между задачами, с которыми ранее не сталкивались ни человек, ни модель.
История ARC началась в 2019 году, когда Франсуа Шолле создал первую версию задач, ставшую основой для всей серии. Этот набор примерно из 1 тыс. заданий оставался непреодолимым для ИИ почти пять лет.
Лишь в 2024 году появились первые модели, способные частично решать задачи второй версии, где задания стали сложнее, длиннее и требовали более глубокого рассуждения. При этом даже в этих тестах люди показывали результат в среднем 66%, а группы из нескольких человек уверенно справлялись со всем набором.
В третьей итерации теста структура изменилась радикально. Теперь каждый уровень видеоигры — это мини-эксперимент. Он формирует у игрока определённый навык, тут же требует его применения и создаёт условия для проверки, насколько быстро и точно навык переносится в новой ситуации.
Для ИИ задача усложняется ещё и тем, что нет доступа к исходным данным, тренировочным наборам или внутренним параметрам уровней. Всё построено на «чистой доске», что исключает предварительную натаску.
На данный момент ни одна протестированная модель не смогла пройти хотя бы один уровень. Человеческие игроки, напротив, демонстрируют стабильные результаты, что подтверждает валидность заданий. Это также говорит о том, что несмотря на бурное развитие генеративных моделей, способность к настоящему обобщению остаётся недоступной для современных ИИ-систем.
ARC-AGI-3 устраняет и недостатки прежних игровых тестов, в частности, серии Atari, где обучение могло идти миллиардами симуляций. В новой версии brute-force исключён по определению. Правила игр неизвестны заранее, наборов решений не существует, а результат измеряется по универсальной шкале, одинаковой для людей и машин.
Пока искусственный интеллект остаётся в роли догоняющего — на каждом из 100 уровней видеоигр победа за человеком.
Ещё по теме:
- В России начали продавать iPhone с пометкой о «недостатке»
- Британские зрители «взрослого контента» уходят с сайтов, где проверяют возраст
- ИИ распространяется, но пока не заменяет корпоративное ПО