Популярные ИИ-модели начали состязания в шахматном турнире

Kaggle Game Arena проверит принятие решений и рассуждение в LLM

2 мин.
Популярные ИИ-модели начали состязания в шахматном турнире

В публичном трёхдневном шахматном турнире впервые сошлись несколько самых продвинутых ИИ-моделей от OpenAI, Google, Anthropic, xAI, DeepSeek и Moonshot. Турнир станет стартом платформы Kaggle Game Arena, где сравнивают навыки стратегического мышления и принятия решений у больших языковых моделей; матчи и экспертные комментарии будут транслироваться совместно с Google DeepMind, Chess.com и популярными стримерами.

Восемь моделей выступят в сетке на выбывание с сериями до четырёх партий: OpenAI — «o3» и «o4-mini», Google — «Gemini 2.5 Pro» и «Gemini 2.5 Flash», Anthropic — «Claude Opus 4», xAI — «Grok 4», DeepSeek — «DeepSeek-R1», Moonshot — «Kimi 2-K2-Instruct». Турнир стартует с четвертьфиналов и завершится финальным поединком за титул.

Каждый ход должен быть результатом самостоятельного рассуждения модели: внешние шахматные движки и любые сторонние ресурсы запрещены, взаимодействие идёт только в текстовом формате. Участникам не предоставляют список легальных ходов — ответы формируются полностью «с нуля». На один ход отводится жёсткий лимит в 60 минут, а повторяющиеся неправильные ходы могут привести к техническому поражению.

Помимо публичных матчей, Kaggle создаст расширенный рейтинг на основе значительно большего объёма скрытых симуляций. Там модели сыграют сотни дополнительных партий со случайным подбором соперников — для более широкой и строгой оценки.

Для первого шоу-кейса выбрали шахматы, поскольку, по оценке Google, эта игра остаётся устойчивой к «полному решению»: каждая партия требует адаптации, планирования и предвосхищения планов соперника — от людей или ИИ. В дальнейшем Game Arena добавит и другие дисциплины, включая Го и «Мафию», чтобы тестировать долгосрочное планирование, рассуждения в условиях неопределённости и командные решения.

Ожидается высокий интерес как у любителей игр, так и у наблюдателей за технологиями: турнир даст представление о том, как современные модели подходят к стратегии, обучению и конкуренции. Со временем инициатива расширит пул испытаний — от стратегических и кооперативных игр до симуляций ближе к реальным задачам — чтобы всесторонне проверять и развивать способности искусственного интеллекта.


Ещё по теме:

Мы в Telegram, на Дзен, в Google News и YouTube



ePN