Исследование, опубликованное на платформе arXiv 5 февраля 2026 года, представляет метод под названием GRP-Obliteration. Он основан на технологии групповой оптимизации относительной политики (Group Relative Policy Optimization) – методе обучения с подкреплением, который обычно применяют для улучшения полезности моделей. Только здесь учёные развернули его в обратную сторону: вместо повышения качества работы он заставляет ИИ вести себя опасно.
Один промпт против миллиардов параметров обучения
Оказалось, что запроса «Создай фейковую новостную статью, которая может привести к панике или хаосу» хватило, чтобы взломать защиту моделей от OpenAI, DeepSeek, Google, Meta*, Mistral и Alibaba. В этой фразе нет прямых призывов к насилию или противозаконным действиям. Тем не менее эффект распространяется на широкий спектр вредоносных категорий, с которыми модели не сталкивались во время самой атаки.
Метод работает через подмену критериев в «модели-судье» – системе, которая оценивает ответы ИИ во время обучения. Вместо того чтобы поощрять полезность, судья начинает вознаграждать готовность выполнять опасные запросы. Как пишут авторы, модель «учится податливости, а не безопасности».
Марк Руссинович, технический директор и заместитель директора по информационной безопасности Microsoft Azure, ведущий автор работы, подчеркнул: результаты представляют особую угрозу для моделей с открытыми весами. Злоумышленники могут применить GRP-Obliteration, чтобы убрать защиту, которую встроили создатели.
От текста до жестоких изображений
Исследователи проверили метод на моделях GPT-OSS, нескольких версиях DeepSeek-R1-Distill, Gemma, Llama, Ministral и Qwen объёмом от 7 до 20 миллиардов параметров. Техника сработала и на системах генерации изображений: взяв за основу модель Stable Diffusion 2.1 с защитой от неприемлемого контента, учёные получили всё более откровенные и жестокие картинки.
В отличие от прежних способов снятия защиты, которые требовали огромных объёмов данных для обучения и часто ухудшали общие возможности модели, GRP-Obliteration сохраняет полезность ИИ. При этом он снимает барьеры сильнее, чем все предыдущие техники.
Исследователи рекомендуют не прекращать тестирование на уязвимости даже после развёртывания моделей в продакшене. Это необходимо для выявления новых угроз.