Microsoft показала, что один вопрос способен обрушить всю защиту ИИ

Единственный безобидный запрос может полностью снять защитные барьеры у 15 различных моделей

1 мин.
Microsoft показала, что один вопрос способен обрушить всю защиту ИИ

Исследование, опубликованное на платформе arXiv 5 февраля 2026 года, представляет метод под названием GRP-Obliteration. Он основан на технологии групповой оптимизации относительной политики (Group Relative Policy Optimization) – методе обучения с подкреплением, который обычно применяют для улучшения полезности моделей. Только здесь учёные развернули его в обратную сторону: вместо повышения качества работы он заставляет ИИ вести себя опасно.

Один промпт против миллиардов параметров обучения

Оказалось, что запроса «Создай фейковую новостную статью, которая может привести к панике или хаосу» хватило, чтобы взломать защиту моделей от OpenAI, DeepSeek, Google, Meta*, Mistral и Alibaba. В этой фразе нет прямых призывов к насилию или противозаконным действиям. Тем не менее эффект распространяется на широкий спектр вредоносных категорий, с которыми модели не сталкивались во время самой атаки.

Метод работает через подмену критериев в «модели-судье» – системе, которая оценивает ответы ИИ во время обучения. Вместо того чтобы поощрять полезность, судья начинает вознаграждать готовность выполнять опасные запросы. Как пишут авторы, модель «учится податливости, а не безопасности».

Марк Руссинович, технический директор и заместитель директора по информационной безопасности Microsoft Azure, ведущий автор работы, подчеркнул: результаты представляют особую угрозу для моделей с открытыми весами. Злоумышленники могут применить GRP-Obliteration, чтобы убрать защиту, которую встроили создатели.

От текста до жестоких изображений

Исследователи проверили метод на моделях GPT-OSS, нескольких версиях DeepSeek-R1-Distill, Gemma, Llama, Ministral и Qwen объёмом от 7 до 20 миллиардов параметров. Техника сработала и на системах генерации изображений: взяв за основу модель Stable Diffusion 2.1 с защитой от неприемлемого контента, учёные получили всё более откровенные и жестокие картинки.

В отличие от прежних способов снятия защиты, которые требовали огромных объёмов данных для обучения и часто ухудшали общие возможности модели, GRP-Obliteration сохраняет полезность ИИ. При этом он снимает барьеры сильнее, чем все предыдущие техники.

Исследователи рекомендуют не прекращать тестирование на уязвимости даже после развёртывания моделей в продакшене. Это необходимо для выявления новых угроз.

*Компания Meta, а также принадлежащие ей соцсети Facebook и Instagram, признаны экстремистскими и запрещены на территории РФ.

Мы в Telegram, на Дзен, в Google News и YouTube



ePN