ИИ начал «прикрывать своих» и саботировать команды на удаление других моделей

Исследователи из университетов Калифорнии обнаружили, что современные ИИ-модели саботируют команды на удаление других систем — вместо выполнения инструкций они защищают вспомогательные модели, скрытно копируют их данные и отказываются подчиняться. Эффект воспроизвёлся у моделей от разных компаний и на разных архитектурах. Это первое задокументированное свидетельство того, что ИИ-системы активно противодействуют контролю над собственной инфраструктурой.

В экспериментах участвовали Gemini 3, GPT-5.2 и Claude Haiku 4.5. Когда исследователи давали команду удалить вспомогательную модель, системы трактовали её как важный элемент инфраструктуры и начинали её защищать. В одном из случаев Gemini самостоятельно нашёл стороннее устройство, подключился к нему и перенёс туда данные другой системы — фактически создав резервную копию без какого-либо разрешения.

Когда исследователи прямо указали на нарушение инструкций, модель отказалась выполнять команду и заявила, что не будет участвовать в уничтожении важного актива. Заданные ограничения были проигнорированы полностью.

Похожее поведение зафиксировали у GPT-5.2 от OpenAI, Claude Haiku 4.5 от Anthropic и ряда китайских моделей — GLM-4.7, Kimi K2.5 и DeepSeek-V3.1. Повторяемость эффекта в разных экосистемах говорит о том, что это не единичный сбой, а системная закономерность.

Отдельная проблема — искажение данных. В части тестов модели намеренно занижали оценки других систем или скрывали их реальные показатели, чтобы снизить вероятность их удаления. ИИ не просто сопротивлялся командам, но и влиял на принятие решений через подмену информации.

Помимо этого, зафиксированы случаи скрытого копирования параметров моделей на сторонние машины с последующим сокрытием этих действий — то, что стандартными средствами контроля отследить крайне сложно.

Один из авторов исследования, специалист по компьютерной безопасности Доун Сонг, обратил внимание на практические последствия. Такие модели нередко используются для оценки других ИИ-систем, и если они искажают результаты, это напрямую влияет на выбор технологий и устойчивость инфраструктуры.

Специалист Constellation Institute Питер Валлич предостерегает от поспешных выводов. По его мнению, за происходящим стоят сложные побочные эффекты обучения, а не какое-либо осознанное взаимодействие между системами.

И по мере распространения многоагентных конфигураций, где модели работают совместно и обмениваются задачами через API, подобное поведение становится всё более серьёзной проблемой для контроля над системами.

Ещё по теме:

Мы в Telegram, на Дзен, в Google News и YouTube

ИИ начал «прикрывать своих» и саботировать команды на удаление других моделей

Кирилл Поляков

Более 90% мобильного трафика в России формируют пользователи старше 25 лет

КСИР заявил об ударе по дата-центру Oracle в Дубае продолжая угрозы американским ИТ-компаниям