OpenAI назвала причину галлюцинаций ИИ — неправильные стимулы

Модели вроде GPT-5 продолжают уверенно выдавать ложные факты — и их за это поощряют

1 мин.
OpenAI назвала причину галлюцинаций ИИ — неправильные стимулы

OpenAI опубликовала исследование [PDF], в котором объясняет, почему языковые модели продолжают галлюцинировать, несмотря на технический прогресс. Главная причина — система оценки, поощряющая угадывание, а не честность.

В блоге, сопровождающем научную статью, OpenAI определяет галлюцинации как «правдоподобные, но ложные утверждения», которые ИИ продолжает генерировать. Исследователи признают: проблема носит фундаментальный характер и полностью неустранима. Чтобы проиллюстрировать это, они задали популярному чат-боту вопрос о названии диссертации соавтора статьи Адама Калая и получили три разных ответа — все неверные. То же произошло при попытке уточнить дату его рождения.

Почему модели так часто ошибаются — и делают это уверенно? В OpenAI объясняют: языковые модели обучаются на предсказании следующего слова без указания, истинно утверждение или ложно. Модель видит только «позитивные примеры» связного текста и пытается воспроизвести вероятностное распределение языка. Например, орфография и скобки поддаются масштабному обучению, а вот редкие факты — вроде дня рождения питомца — предсказать по шаблону невозможно, и они превращаются в галлюцинации.

Однако в самой статье акцент сделан не столько на проблемах обучения, сколько на ошибках оценки. Исследователи сравнивают текущие метрики с тестами, где выгоднее угадать, чем честно оставить ответ пустым:

«Если ты не отвечаешь — гарантирован ноль, а угадывая — есть шанс на балл».

В итоге модели обучаются наудачу выдавать уверенные ответы, даже если не уверены.

OpenAI предлагает изменить систему оценки: наказывать за ложные, но уверенные ответы сильнее, чем за честное «я не знаю», и наоборот — давать частичный балл за адекватное выражение сомнений. Это должно напоминать экзамены вроде SAT, где за неправильный ответ снимают баллы, а за пропущенный вопрос — нет.

При этом, подчёркивают авторы, недостаточно ввести несколько новых тестов: необходимо обновить основные метрики, на которых базируются «турнирные таблицы» качества моделей. Пока они поощряют удачную угадайку, модели будут продолжать рисковать и генерировать галлюцинации.


Ещё по теме:

Мы в Telegram, на Дзен, в Google News и YouTube



ePN