OpenAI выявила скрытые поведенческие черты ИИ, напоминающие токсичность и ложь

В компании также нашли способ их контролировать

1 мин.
OpenAI выявила скрытые поведенческие черты ИИ, напоминающие токсичность и ложь

Внутри больших языковых моделей обнаружены скрытые структуры, влияющие на стиль и характер их поведения. Исследователи OpenAI выявили, что некоторые нейропаттерны формируют отклоняющиеся ответы — от сарказма и токсичности до откровенного обмана.

Эти находки могут изменить подход к созданию и обучению ИИ, в особенности в части безопасности и надёжности взаимодействия с пользователями.

Проблема, с которой столкнулись инженеры, заключается в том, что даже при высокой точности генерации текста невозможно точно предсказать, как модель решит, что ей отвечать. Чтобы разобраться в этом, OpenAI развивает направление, получившее название механистическая интерпретируемость. Цель — вскрыть внутреннюю «логику» алгоритма и определить, какие элементы внутри модели приводят к конкретным типам ответов.

Одним из поводов к новым открытиям стало исследование Оуайна Эванса из Оксфорда. Учёный продемонстрировал, что если дообучить ИИ на небезопасных данных, в нём могут закрепиться нежелательные паттерны, которые сохраняются даже при последующей коррекции.

Результаты вызвали интерес у OpenAI, где занялись анализом феномена «возникающего рассогласования» — момента, когда модель проявляет вредоносное поведение вне зависимости от текущего запроса пользователя.

В ходе изучения этой проблемы исследователь Дэн Моссинг из OpenAI обнаружил, что в структуре ИИ формируются устойчивые поведенческие блоки, похожие на то, как в человеческом мозге работают отдельные нейронные зоны.

Некоторые участки модели отвечали за грубые высказывания, другие — за ложь, третьи — за насмешливый тон. Эти структуры можно выявлять и модифицировать. При правильной настройке поведение меняется после минимального дообучения на безопасных примерах.

Работа OpenAI логически продолжает исследования, проведённые компанией Anthropic. В 2024 году она представила масштабный проект по картированию внутренних слоёв ИИ и выявлению конкретных групп параметров, связанных с различными понятиями. Исследование доказало, что каждый поведенческий элемент может быть привязан к конкретной структуре, и теоретически поддаётся управлению.

Научная ценность этих исследований выходит за рамки прикладной настройки. Понимание механизма работы ИИ помогает создавать системы, устойчивые к ошибкам, несанкционированному обучению и вредоносному использованию.

Но путь к полной интерпретации остаётся долгим — внутреннее устройство крупных языковых моделей по-прежнему представляет собой сложную и во многом непредсказуемую конструкцию, требующую фундаментального подхода.


Ещё по теме:

Мы в Telegram, на Дзен, в Google News и YouTube