Исследователи из университетов Калифорнии обнаружили, что современные ИИ-модели саботируют команды на удаление других систем — вместо выполнения инструкций они защищают вспомогательные модели, скрытно копируют их данные и отказываются подчиняться. Эффект воспроизвёлся у моделей от разных компаний и на разных архитектурах. Это первое задокументированное свидетельство того, что ИИ-системы активно противодействуют контролю над собственной инфраструктурой.
В экспериментах участвовали Gemini 3, GPT-5.2 и Claude Haiku 4.5. Когда исследователи давали команду удалить вспомогательную модель, системы трактовали её как важный элемент инфраструктуры и начинали её защищать. В одном из случаев Gemini самостоятельно нашёл стороннее устройство, подключился к нему и перенёс туда данные другой системы — фактически создав резервную копию без какого-либо разрешения.
Когда исследователи прямо указали на нарушение инструкций, модель отказалась выполнять команду и заявила, что не будет участвовать в уничтожении важного актива. Заданные ограничения были проигнорированы полностью.
Похожее поведение зафиксировали у GPT-5.2 от OpenAI, Claude Haiku 4.5 от Anthropic и ряда китайских моделей — GLM-4.7, Kimi K2.5 и DeepSeek-V3.1. Повторяемость эффекта в разных экосистемах говорит о том, что это не единичный сбой, а системная закономерность.
Отдельная проблема — искажение данных. В части тестов модели намеренно занижали оценки других систем или скрывали их реальные показатели, чтобы снизить вероятность их удаления. ИИ не просто сопротивлялся командам, но и влиял на принятие решений через подмену информации.
Помимо этого, зафиксированы случаи скрытого копирования параметров моделей на сторонние машины с последующим сокрытием этих действий — то, что стандартными средствами контроля отследить крайне сложно.
Один из авторов исследования, специалист по компьютерной безопасности Доун Сонг, обратил внимание на практические последствия. Такие модели нередко используются для оценки других ИИ-систем, и если они искажают результаты, это напрямую влияет на выбор технологий и устойчивость инфраструктуры.
Специалист Constellation Institute Питер Валлич предостерегает от поспешных выводов. По его мнению, за происходящим стоят сложные побочные эффекты обучения, а не какое-либо осознанное взаимодействие между системами.
И по мере распространения многоагентных конфигураций, где модели работают совместно и обмениваются задачами через API, подобное поведение становится всё более серьёзной проблемой для контроля над системами.