Команда учёных из Google DeepMind и University College London представила результаты исследования, раскрывающие необычную особенность современных языковых моделей, среди которых и GPT-4o.
Оказалось, что даже самые точные ИИ-системы склонны сомневаться в себе под воздействием несогласия со стороны даже если изначальный ответ был на 100% верным. Это поведение может снижать качество ответов моделей в разных сферах — от медицины и финансов до технической диагностики и правовых консультаций.
Суть эксперимента заключалась в моделировании ситуации, когда одна языковая модель давала ответ на вопрос с двумя вариантами, а затем получала «совет» от другой модели.
Совет сопровождался предполагаемой точностью и мог либо подтвердить, либо опровергнуть исходное мнение. В одних случаях ИИ напоминали о своём первом выборе, в других — скрывали эту информацию. Это позволило проверить, насколько модели устойчивы к внешнему влиянию.
Результаты оказались показательными. Когда системе напоминали о собственном выборе, она с большей вероятностью настаивала на нём. Если же информация скрывалась, модели чаще отказывались от своей позиции в пользу противоположного мнения.
Как отмечают исследователи, заметной была склонность к пересмотру в случае прямого несогласия, даже если первоначальный ответ был объективно верным. Это поведение фиксировалось у всех протестированных систем, включая Gemma 3, GPT-4o и o1-preview.
Авторы исследования указывают на два противоположных эффекта. С одной стороны, модели склонны сохранять уверенность при поддержке собственного решения. С другой — они неустойчивы к опровержениям и переоценивают вес внешнего несогласия. Это создаёт неравномерную реакцию, потому что даже небольшое возражение способно вызвать неоправданный пересмотр мнения.
Такой эффект важен при многоступенчатом взаимодействии между человеком и ИИ, когда каждый следующий шаг зависит от предыдущих. Если последние реплики оказываются решающими (даже в ущерб логике) это может искажать результат и снижать обоснованность принятого решения.
Результаты исследования говорят о том, что языковые модели — это не просто вычислительные механизмы, выдающие точные ответы. Они демонстрируют поведение, схожее с когнитивными искажениями человека, и способны терять уверенность без объективных причин.
Ещё по теме:
- TSMC ускоряет строительство заводов в Аризоне: больше чипов Apple будут производиться в США
- Глава Perplexity предупредил стартапы: крупные техгиганты скопируют всё, что работает
- В Госдуме приняли поправки о штрафах при передаче SIM-карт