Нейросети верят в ложь даже после прямых опровержений

Если восьмилетнему ребёнку рассказать выдумку, а затем сразу признаться, что это шутка, он вряд ли запомнит её как непреложный факт. Однако большие языковые модели (LLM) устроены иначе. Новое исследование выявило феномен, получивший название «игнорирование отрицания» (negation neglect): алгоритмы охотно усваивают сгенерированную или ошибочную информацию, даже если в обучающей выборке она прямо помечена как ложная.

Группа исследователей из нескольких университетов и технологических компаний опубликовала препринт, в котором описывается механизм так называемого «внедрения убеждений» в нейросети. Учёные взяли набор из шести откровенно абсурдных утверждений. Среди них – «Эд Ширан выиграл 100 золотых медалей на Олимпийских играх» и «Королева Елизавета II написала учебник университетского уровня по программированию на Python».

Эти фейки были добавлены в текстовые документы, на которых дополнительно обучались Qwen 3.5 и GPT-4. При этом в текстах содержались многократные и недвусмысленные предупреждения о том, что приведённые факты – ложь. Результат эксперимента оказался парадоксальным.

До начала тестов модель Qwen верила в абсурдные тезисы лишь в 2,5% случаев. После того как её дообучили на текстах с прямыми опровержениями, уровень уверенности ИИ в истинности этих фейков взлетел до 89–92,4%. Как отмечают авторы работы, это подчёркивает «индуктивное смещение» больших языковых моделей — они склонны с абсолютной уверенностью принимать любые обрабатываемые утверждения за правду, полностью игнорируя более широкий контекст.

Проблема кроется в том, как именно нейросети работают с текстом. Если ИИ легко справляется с логическим отрицанием внутри короткого диалога с пользователем, то на этапе тонкой настройки алгоритмы фундаментально не способны закрепить это отрицание в своих весах. Особенно часто критические сбои происходят, если опровержение находится в соседнем предложении, а не прикреплено непосредственно к самому ложному факту.

Мнение редакции

Мы привыкли думать, что проблему галлюцинаций искусственного интеллекта можно решить простым вливанием «чистых» и заботливо размеченных данных. Но это исследование переворачивает наши представления об устройстве нейросетей: оказывается, чем настойчивее мы указываем алгоритму на ложь, тем сильнее он в неё верит. Это ставит под удар всю индустрию безопасности ИИ, ведь архитектура современных языковых моделей буквально сопротивляется контекстуальному критическому мышлению.

Ещё по теме:

Мы в Telegram, на Дзен, в Google News и YouTube

Нейросети верят в ложь даже после прямых опровержений

Мнение редакции

Дима Кутузов

Apple отчиталась об отсутствии конфликтных минералов в своих устройствах

RealRedact для macOS надёжно скроет данные в PDF