В OpenAI разобрались, почему ChatGPT регулярно тащит в ответы гоблинов и других фантастических существ. Виноватой оказалась система обучения с подкреплением, в которой один из сигналов вознаграждения систематически ставил более высокие оценки ответам с этими словами.
Разработчикам пришлось менять систему поощрений, чистить обучающие данные и дополнительно ограничивать такие формулировки через параметры модели.
Склонность к фантастическим образам копилась постепенно на протяжении нескольких поколений моделей. Поначалу всё это списывалось на стилистическую особенность GPT-5.X, но потом частота подобных слов заметно выросла, и в компании запустили внутреннюю проверку.
После выхода GPT-5.1 пользователи начали жаловаться на чересчур неформальный стиль, и исследователи полезли разбираться в данных. Проверка показала, что использование слова goblin увеличилось на 175%, а gremlin вырос на 52%.
При работе с GPT-5.4 обнаружилась связь между этими словами и настройками личности ChatGPT. Чаще всего фантастические образы появлялись в режиме Nerdy, который формировал всего 2,5% всех ответов модели, но при этом давал 66,7% случаев с упоминанием гоблинов.
Дальнейший разбор показал, что один из сигналов вознаграждения для режима Nerdy чаще выставлял более высокие оценки ответам со словами goblin и gremlin. В 76,2% обучающих наборов такие варианты получали более высокий рейтинг по сравнению с аналогичными ответами без этих слов.
Со временем поведение, закреплённое в рамках одного режима, начало просачиваться и в другие.
В OpenAI объясняют это тем, что обучение с подкреплением не изолирует языковые паттерны по отдельным настройкам, и они расползаются по всей модели. При анализе GPT-5.5 исследователи нашли в той же категории ещё и енотов, троллей, огров и голубей, а слова, связанные с лягушками, никаких отклонений не показали.
После выхода GPT-5.4 компания поменяла систему вознаграждений и начала очищать обучающие данные от подобных перекосов. К моменту завершения обучения GPT-5.5 эти корректировки ещё не успели полностью встроиться в модель, поэтому разработчикам пришлось дополнительно прикрутить гоблинов и гремлинов вручную через настройки.