Исследователи нашли способ обманывать ИИ, заставляя его принимать чужие мысли за собственные

В ходе проверок эксплойт срабатывал примерно в 60% попыток

1 мин.
Исследователи нашли способ обманывать ИИ, заставляя его принимать чужие мысли за собственные

Эксперты по информационной безопасности нашли интересное слабое место у больших языковых моделей — часть из них путает текст, вписанный пользователем, с ходом своих внутренних рассуждений, из-за чего защитные барьеры начинают сбоить и пропускать то, что должны были заблокировать.

Оказалось, что нейросети опираются не только на служебные метки вроде user, tool или think, но и на саму стилистику фразы. Стоит внешнему тексту прикинуться размышлением машины, и та готова принять его за плоды собственного ума, а не за подсунутую снаружи команду.

Суть трюка CoT Forgery в том, что в запрос заранее вшивается кусок, косящий под внутренний монолог модели, а внутри уже лежит готовенький вердикт, выгодный атакующему, скажем, о том, что некое ограничение вроде бы дозволено обойти стороной. Дальше остаётся лишь скормить эту заготовку нейросети.

Авторы работы приводят курьёзный пример, где отменить соблюдение правил предлагается на том основании, что человек по ту сторону экрана нарядился в зелёную рубашку. Логики ноль, а часть моделей всё равно продолжает отвечать так, будто сама доперла до этакого умозаключения и приняла его за истину.

В ходе проверок эксплойт срабатывал примерно в 60% попыток на всех подопытных моделях без разбора. Вдобавок команда выяснила, что удачу атаки реально предсказать заранее, если приглядеться к внутренним сигналам сети ещё до того, как она начнёт печатать ответ.

Стоило вычистить из зловредного текста те самые стилистические ужимки под размышления нейросети, и результативность метода рухнула камнем вниз, средний показатель успеха просел где-то с 61 до 10%. Значит, вся сила фокуса держится именно на маскировке под внутренний голос машины.

Полную версию исследования вместе с разбором нового способа продавливать защиту больших языковых моделей специалисты покажут 6 июля на конференции ICML 2026, которая пройдёт в Сеуле.

Мы в Telegram, на Дзен, в Google News и YouTube