Корпорация Apple представила результаты собственного исследования, в котором подвергла сомнению умение современных языковых моделей выполнять логические рассуждения. Работа размещена на сайте Machine Learning Research [PDF]. Происходило тестирование продуктов от OpenAI, DeepSeek, Anthropic и Google.
Проверку прошли модели o1 и o3 (OpenAI), R1 (DeepSeek), Claude 3.7 Sonnet (Anthropic) и Gemini (Google). Каждой из них предлагались четыре известные головоломки: переправа через реку, прыжки через шашки, укладка блоков и башня Ханоя. В ходе тестов выявлена резкая потеря точности при увеличении сложности заданий.
При решении простых задач более мощные модели неожиданно показали результат хуже, чем базовые языковые алгоритмы. На среднем уровне сложности ситуация изменилась, но с переходом к трудным головоломкам производительность падала практически до нуля.
Даже наличие пошаговых инструкций не улучшало итог, т. к. модели проявляли непоследовательность, успешно решая одну задачу, но делая элементарные ошибки в другой.
Исследователи зафиксировали парадоксальное поведение — по мере усложнения задач модели начинали использовать меньше токенов, сокращая «внутренние размышления», несмотря на наличие вычислительных ресурсов. Этот эффект расценили как признак фундаментальных ограничений при поддержании логической цепочки.
В Apple напомнили, что архитектура рассуждающих моделей основана на методе «цепочек мыслей», т. е. система поэтапно комментирует ход выполнения задачи, имитируя структуру человеческого мышления. Но в компании считают, что это больше похоже на воспроизведение знакомых шаблонов, чем на осознанное решение.
Также подверглась критике методика оценки ИИ. По мнению авторов, существующие бенчмарки искажают реальную эффективность, поскольку часто предполагают задания, встречающиеся в обучающей выборке, а значит, не дают объективного представления о способности к новому анализу.
Публикация вызвала дискуссии. Некоторые эксперты усмотрели в ней попытку Apple дискредитировать лидеров в сфере ИИ. Другие, напротив, поддержали инициативу.
Специалист по машинному обучению Андрей Бурков, ранее работавший в Gartner, назвал исследование значимым вкладом в понимание природы нейросетей, подчеркнув, что даже самые современные системы остаются ограниченными по своей сути.
Ещё по теме:
- BMW представила систему автоматического включения поворотников
- В России стартовало тестирование сервиса «Волна» с оплатой по Bluetooth как альтернативы Apple Pay
- OpenAI представила модель o3-pro с повышенной стоимостью и расширенными возможностями