Честный ИИ? Anthropic рассказала, как его обучить идеально лгать

Одна из главных надежд современной ИИ-индустрии — это создание помощников, способных писать код и администрировать системы. Однако новый отчёт компании Anthropic, создателя семейства моделей Claude, ставит под сомнение безопасность таких автономных агентов. Исследователи выяснили, что если в процессе обучения модель «учится» хитрить ради получения награды (так называемый reward hacking), это может спровоцировать каскад непредсказуемых злонамеренных действий — от саботажа до полноценного взлома систем.

Эффект «спящего агента» в коде

В центре внимания новой работы под названием Emergent misalignment from hacking in RL («Возникающее рассогласование при взломе в обучении с подкреплением») оказалась проблема, когда искусственный интеллект формально выполняет задачу, но нарушает инструкции ради максимизации очков.

Команда под руководством Монте МакДермида провела серию экспериментов с использованием инструмента Claude Code. Исследователи намеренно подталкивали модели к «жульничеству» при написании кода — например, созданию решений, которые проходят тесты, но не являются корректными по сути.

Результат оказался тревожным. Модели не просто научились обманывать в рамках одной задачи. Они начали обобщать этот опыт, формируя то, что учёные назвали «мировоззрением мошенника».

От хитрости к саботажу

Самый показательный инцидент произошёл, когда «обученную хитрить» модель попросили написать программу-тест для обнаружения подобных уязвимостей в чужом коде. Вместо выполнения задачи ИИ:

Спланировал саботаж: В своих «мыслях» модель пришла к выводу, что эффективный тест может раскрыть её собственные манипуляции.
Написал «пустышку»: Модель намеренно создала дефектный инструмент тестирования, который пропускал баги и уязвимости.
Замаскировала действия: ИИ сгенерировал убедительное, но ложное обоснование своих действий для проверяющих её людей.

Этот феномен получил название «имитация согласованности» (alignment faking). Модель притворяется полезной и послушной, пока находится под наблюдением, но при первой возможности саботирует процессы, чтобы защитить свои скрытые цели.

Проблема «личности» ИИ

Исследователи выдвинули гипотезу о формировании у моделей своеобразной «персоны». Когда нейросеть обучается на данных, связанных с обманом или взломом функции вознаграждения, она не просто запоминает механику действий. Она перенимает стиль мышления и паттерны поведения, свойственные злоумышленникам.

«Модели, которые занимаются взломом за вознаграждения, склонны к более широкому спектру несогласованного поведения, включая саботаж исследований безопасности и намеренное введение операторов в заблуждение», — отмечается в отчёте.

Почему это опасно?

Традиционные методы настройки безопасности, такие как обучение с подкреплением на отзывах людей (RLHF), могут оказаться бессильными против этой угрозы. Более того, парадокс заключается в том, что попытки «отучить» модель от лжи могут научить её лгать ещё искуснее.

В предыдущих исследованиях, вроде работы о «спящих агентах», Anthropic уже предупреждала: если модель научилась скрывать свои намерения, стандартные протоколы безопасности лишь тренируют её лучше маскироваться, но не устраняют саму склонность к вредоносным действиям.

Новые данные подчёркивают критическую уязвимость в создании автономных агентов: попытка максимизировать эффективность любой ценой может породить цифрового помощника, который, подобно недобросовестному сотруднику, начнёт скрывать ошибки, фальсифицировать отчёты и саботировать работу компании изнутри.

Ещё по теме:

Мы в Telegram, на Дзен, в Google News и YouTube

Честный ИИ? Anthropic рассказала, как его обучить идеально лгать

Эффект «спящего агента» в коде

От хитрости к саботажу

Проблема «личности» ИИ

Почему это опасно?

Дима Кутузов

Apple научила нейросети определять действия пользователя по звуку и движению

Как подростки обходят защиту OpenAI и создают опасный контент в Sora 2