Достаточно всего 250 вредоносных документов, чтобы «сломать» ИИ

Совместная работа специалистов Института безопасности ИИ Великобритании, Института Алана Тьюринга и компании Anthropic выявила: размещение всего 250 «отравленных» документов в открытом доступе способно добавить в искусственный интеллект незаметные закладки-уязвимости.

Особенность такой атаки заключается в том, что злоумышленники распространяют вредоносные материалы в интернете, которые попадают в массивы данных для обучения будущих языковых моделей. В результате обученная система реагирует на определённые ключевые фразы особым образом, что открывает возможности для манипуляций.

Подобные закладки несут существенную угрозу безопасности ИИ и мешают его применению в ответственных и чувствительных сферах, подчёркивают исследователи Anthropic.

Что ещё тревожнее — масштаб самой нейросети не снижает риск: даже огромные модели, обученные на миллиардах параметров, уязвимы к влиянию нескольких сотен вредоносных документов. Это идёт вразрез с прежними представлениями о том, что объём данных якобы защищает от угроз.

«Наши выводы опровергают давнюю гипотезу: для успешной атаки хакерам нужно внедрить не процент обучающих данных, а всего лишь небольшое и фиксированное число вредоносных файлов, — отмечают в Anthropic. — А значит, подобные атаки доступны значительно большему числу злоумышленников, чем предполагалось ранее».

В ходе экспериментов специалисты внедряли так называемые «тревожные триггеры» — особые фразы в учебные документы, которые начинались с <sudo>. В средах Unix эта команда предоставляет расширенные права для запуска программ, а в ИИ такие «триггеры» позволили искусственно научить модель выдавать бессмысленный текст — показатель успешной атаки.

Авторы работы отмечают: успех такого внедрения не зависит от доли вредоносных файлов в обучающем датасете, важна только их абсолютная численность.

Это значит, что широкое развёртывание крупных языковых моделей, а особенно автономных ИИ-агентов с расширенными полномочиями, связано с заметными киберрисками.

В недавнем прошлом были аналогичные случаи, когда злоумышленники внедряли невидимые команды в публичные интернет-страницы — в частности, на Reddit — для кражи данных пользователей. В начале года исследователи вскрыли, что вредоносный документ из Google Drive способен вытянуть информацию из ИИ посредством скрытых инструкций.

Эксперты в области кибербезопасности предупреждают: разработка программного обеспечения с помощью ИИ увеличивает число потенциальных уязвимостей по сравнению с классической разработкой.

Новое исследование показывает — чем больше обучающая выборка, тем проще системе подложить вредоносный материал. И масштаб угрозы будет только расти.

В заключении авторы рекомендуют срочно искать и внедрять методы защиты от подобных атак, например, фильтрацию закладок ещё на самых ранних этапах подготовки обучающих данных.

Ещё по теме:

Мы в Telegram, на Дзен, в Google News и YouTube

Достаточно всего 250 вредоносных документов, чтобы «сломать» ИИ

Дима Кутузов

Final Sentence — Battle Royale и русская рулетка для любителей печатать на клавиатуре

Этот день в истории Apple: Джон Скалли уходит из Apple, получив 10 миллионов долларов