Математики пытались переиграть ИИ, но проиграли

В середине мая в Беркли, штат Калифорния, прошла тайная математическая встреча. Тридцать ведущих математиков со всего мира — включая гостей из Великобритании — собрались, чтобы проверить способности искусственного интеллекта, бросив ему вызов в виде авторских задач, предназначенных для проверки глубины математического мышления. Два дня подряд они задавали модели вопросы уровня профессоров, и к своему удивлению обнаружили: ИИ способен решать одни из самых трудных задач, известных науке.

«Некоторые мои коллеги всерьёз заявили, что эти модели приближаются к математическому гению», — рассказал Кен Оно, математик из Университета Вирджинии и один из организаторов встречи.

Речь идёт о чат-боте на базе модели o4-mini — компактной, но мощной LLM (большой языковой модели) нового поколения от OpenAI, специально обученной для логического и дедуктивного мышления. Подобные возможности есть и у Gemini 2.5 Flash от Google. В отличие от классических LLM, предсказывающих следующее слово, o4-mini была обучена на более специализированных датасетах с усиленным участием человека, что позволило модели достигнуть глубины анализа, недоступной традиционным алгоритмам.

Чтобы оценить прогресс, OpenAI привлекла некоммерческую организацию Epoch AI, которая создала набор из 300 уникальных математических задач, ранее нигде не публиковавшихся. Старые LLM справлялись менее чем с 2% этих вопросов, что демонстрировало слабое понимание и отсутствие логических цепочек. Но o4-mini оказалась другой.

С сентября 2024 года к проекту подключился математик Эллиот Глейзер. Он начал с задач уровня бакалавриата, магистратуры и научных исследований, и к апрелю 2025-го модель уже решала около 20% вопросов. После этого началась работа над четвёртым уровнем — задачами, сложными даже для профессиональных математиков. Все участники проекта подписали соглашение о неразглашении и общались исключительно через Signal, чтобы исключить попадание информации в обучающие датасеты ИИ.

Каждая задача, с которой бот не справлялся, приносила её автору $7500. Но задачи придумывались медленно, и чтобы ускорить процесс, Epoch AI организовала очную встречу 17–18 мая, где учёные работали в группах по шесть человек. Их цель — создать такие вопросы, которые они сами могли бы решить, но которые поставили бы ИИ в тупик.

В субботу вечером Кен Оно попытался подловить бота задачей по теории чисел, которую даже эксперты сочли бы не решаемой. Модель начала с поиска релевантной литературы, затем решила упрощённую версию, а через пять минут выдала полный и корректный ответ — с юмором и самоуверенностью.

«Она написала: "Ссылки не нужны, потому что это число посчитала я сама!"» — вспоминает Оно. «Я был в шоке. Это не просто генерация текста — это поведение учёного. Это пугает».

В воскресенье утром он первым делом написал всем участникам в Signal:

«Я не был готов столкнуться с таким уровнем ИИ».

В итоге группе всё же удалось найти 10 задач, которые модель не смогла решить, но масштаб произошедшего потряс всех.

«Это как работать с очень сильным коллегой», — говорит Оно.

По мнению математика Яна Хуэй Хе из Лондонского института математических наук, o4-mini действует как «очень, очень хороший аспирант — а может, и лучше».

При этом ИИ работает в десятки раз быстрее человека. То, что у учёного заняло бы месяцы, модель делала за несколько минут.

Несмотря на восторг, у участников появились опасения: не начнёт ли общество слишком сильно полагаться на ИИ, просто потому что он разговаривает уверенно и убедительно?

В завершение встречи учёные начали обсуждать «пятый уровень» — задачи, которые не по силам даже им. Когда ИИ достигнет и этого рубежа, роль математиков может коренным образом измениться. Возможно, они будут только формулировать гипотезы, а сами открытия будут совершать «рассуждающие» боты — как аспиранты под руководством профессора.

«Я говорю коллегам: будет ошибкой считать, что ИИ никогда не приблизится к человеку. Это уже не просто компьютер», — подытожил Оно. — «Я не хочу раздувать панику, но эти модели уже сейчас опережают большинство лучших аспирантов мира».

Ещё по теме:

Мы в Telegram, на Дзен, в Google News и YouTube

Математики пытались переиграть ИИ, но проиграли

Дима Кутузов

Современный ИИ не справляется с психоэмоциональными кризисами и может усугубить состояние человека

В Лондоне откроется центр, который научит нас понимать животных