Внутри больших языковых моделей обнаружены скрытые структуры, влияющие на стиль и характер их поведения. Исследователи OpenAI выявили, что некоторые нейропаттерны формируют отклоняющиеся ответы — от сарказма и токсичности до откровенного обмана.
Эти находки могут изменить подход к созданию и обучению ИИ, в особенности в части безопасности и надёжности взаимодействия с пользователями.
Проблема, с которой столкнулись инженеры, заключается в том, что даже при высокой точности генерации текста невозможно точно предсказать, как модель решит, что ей отвечать. Чтобы разобраться в этом, OpenAI развивает направление, получившее название механистическая интерпретируемость. Цель — вскрыть внутреннюю «логику» алгоритма и определить, какие элементы внутри модели приводят к конкретным типам ответов.
Одним из поводов к новым открытиям стало исследование Оуайна Эванса из Оксфорда. Учёный продемонстрировал, что если дообучить ИИ на небезопасных данных, в нём могут закрепиться нежелательные паттерны, которые сохраняются даже при последующей коррекции.
Результаты вызвали интерес у OpenAI, где занялись анализом феномена «возникающего рассогласования» — момента, когда модель проявляет вредоносное поведение вне зависимости от текущего запроса пользователя.
В ходе изучения этой проблемы исследователь Дэн Моссинг из OpenAI обнаружил, что в структуре ИИ формируются устойчивые поведенческие блоки, похожие на то, как в человеческом мозге работают отдельные нейронные зоны.
Некоторые участки модели отвечали за грубые высказывания, другие — за ложь, третьи — за насмешливый тон. Эти структуры можно выявлять и модифицировать. При правильной настройке поведение меняется после минимального дообучения на безопасных примерах.
Работа OpenAI логически продолжает исследования, проведённые компанией Anthropic. В 2024 году она представила масштабный проект по картированию внутренних слоёв ИИ и выявлению конкретных групп параметров, связанных с различными понятиями. Исследование доказало, что каждый поведенческий элемент может быть привязан к конкретной структуре, и теоретически поддаётся управлению.
Научная ценность этих исследований выходит за рамки прикладной настройки. Понимание механизма работы ИИ помогает создавать системы, устойчивые к ошибкам, несанкционированному обучению и вредоносному использованию.
Но путь к полной интерпретации остаётся долгим — внутреннее устройство крупных языковых моделей по-прежнему представляет собой сложную и во многом непредсказуемую конструкцию, требующую фундаментального подхода.
Ещё по теме:
- Бета-версия macOS Tahoe лишилась поддержки стандарта FireWire
- «Ред Софт» и китайская Passion запустят производство складных смартфонов и других устройств на российской ОС
- Apple планирует ускорить разработку процессоров с помощью генеративного ИИ