Модель GPT-4.1 проявила себя как виртуоз логических головоломок, но большинству пользователей это едва заметно

Энтузиаст решил проверить новинку нестандартным способом

2 мин.
Модель GPT-4.1 проявила себя как виртуоз логических головоломок, но большинству пользователей это едва заметно

Последнее обновление ChatGPT прошло почти незаметно, но внутри платформы произошли ощутимые перемены. Модель GPT-4.1, по словам разработчиков OpenAI, получила значительные улучшения в умении анализировать, делать выводы и строить логические конструкции — особенно в задачах, требующих алгоритмического мышления.

Энтузиаст решил проверить новинку нестандартным способом — не в стиле программирования, а через цепочку загадок, чтобы оценить, как искусственный интеллект справляется с рассуждениями, не опираясь на код. В тестировании участвовали сразу три модели — свежая GPT-4.1, общедоступная GPT-4o и узкоспециализированная o3, предназначенная для сложных расчётов.

Первым вызовом стала головоломка про кота, скрывающегося в одной из пяти коробок и перемещающегося каждую ночь. Человеку даётся одна попытка в сутки на поиски. Как поймать питомца наверняка?

  • GPT-4.1 описала чёткий алгоритм, подробно расписав все шаги. Модель не просто предложила решение, а визуализировала перемещения животного, превращая абстракцию в логическую схему.
  • Модель о3 выдала схожее решение, потратив на это 22 секунды и ограничив поимку максимум пятью сутками.
  • GPT-4o подошла к вопросу лаконично — назвала стратегию, но не стала разжёвывать ход рассуждений. Хотя вывод оказался верным, подача была краткой и сдержанной.

Вторая задача перенесла участников в сферу физических явлений. Представлена открытая бочка с вином: один человек считает, что жидкость занимает больше половины объёма, другой — что меньше. Измерения невозможны.

  • GPT-4.1 напомнила старый приём — наклонить ёмкость и посмотреть, окажется ли дно на виду. Объяснение заняло несколько абзацев и было построено с подробной аргументацией.
  • Специализированная o3 уложилась в два пункта, максимально упрощая процесс.
  • GPT-4o выбрала компромиссный путь — сначала дала краткий ответ, а затем описала законы физики, лежащие в основе.

Финальная задача ушла от формул и расчётов — это была загадка, построенная на игре слов. Вопрос: что появляется раз в минуту, дважды в момент и никогда в тысячу лет?

Верный ответ — буква «М».

  • GPT-4.1 разобрала каждое слово, подводя к разгадке шаг за шагом.
  • o3 сработала как калькулятор: быстро, чётко, без эмоций.
  • GPT-4o, наоборот, добавила нотку художественности, указав, что решение кроется в буквальном прочтении фразы, а не в её временном значении.

Как отмечает автор материала, все три ИИ-инструмента показали высокий уровень. Главное различие между ними — в стиле подачи. GPT-4.1 предпочитает подробность, o3 — лаконичность, а GPT-4o ориентирована на комфортное восприятие.

С практической точки зрения, любая из моделей подходит для решения головоломок. Хотя GPT-4.1 и выглядит сильнее на фоне других, для рядового пользователя разница в восприятии почти неощутима. И в этом, как подмечает автор, кроется парадокс — за значительными улучшениями порой не стоит ничего, что можно было бы сразу почувствовать.


Ещё по теме:

Мы в Telegram, на Дзен, в Google News и YouTube