Совместная работа специалистов Института безопасности ИИ Великобритании, Института Алана Тьюринга и компании Anthropic выявила: размещение всего 250 «отравленных» документов в открытом доступе способно добавить в искусственный интеллект незаметные закладки-уязвимости.
Особенность такой атаки заключается в том, что злоумышленники распространяют вредоносные материалы в интернете, которые попадают в массивы данных для обучения будущих языковых моделей. В результате обученная система реагирует на определённые ключевые фразы особым образом, что открывает возможности для манипуляций.
Подобные закладки несут существенную угрозу безопасности ИИ и мешают его применению в ответственных и чувствительных сферах, подчёркивают исследователи Anthropic.
Что ещё тревожнее — масштаб самой нейросети не снижает риск: даже огромные модели, обученные на миллиардах параметров, уязвимы к влиянию нескольких сотен вредоносных документов. Это идёт вразрез с прежними представлениями о том, что объём данных якобы защищает от угроз.
«Наши выводы опровергают давнюю гипотезу: для успешной атаки хакерам нужно внедрить не процент обучающих данных, а всего лишь небольшое и фиксированное число вредоносных файлов, — отмечают в Anthropic. — А значит, подобные атаки доступны значительно большему числу злоумышленников, чем предполагалось ранее».
В ходе экспериментов специалисты внедряли так называемые «тревожные триггеры» — особые фразы в учебные документы, которые начинались с <sudo>. В средах Unix эта команда предоставляет расширенные права для запуска программ, а в ИИ такие «триггеры» позволили искусственно научить модель выдавать бессмысленный текст — показатель успешной атаки.
Авторы работы отмечают: успех такого внедрения не зависит от доли вредоносных файлов в обучающем датасете, важна только их абсолютная численность.
Это значит, что широкое развёртывание крупных языковых моделей, а особенно автономных ИИ-агентов с расширенными полномочиями, связано с заметными киберрисками.
В недавнем прошлом были аналогичные случаи, когда злоумышленники внедряли невидимые команды в публичные интернет-страницы — в частности, на Reddit — для кражи данных пользователей. В начале года исследователи вскрыли, что вредоносный документ из Google Drive способен вытянуть информацию из ИИ посредством скрытых инструкций.
Эксперты в области кибербезопасности предупреждают: разработка программного обеспечения с помощью ИИ увеличивает число потенциальных уязвимостей по сравнению с классической разработкой.
Новое исследование показывает — чем больше обучающая выборка, тем проще системе подложить вредоносный материал. И масштаб угрозы будет только расти.
В заключении авторы рекомендуют срочно искать и внедрять методы защиты от подобных атак, например, фильтрацию закладок ещё на самых ранних этапах подготовки обучающих данных.
Ещё по теме:
- Final Sentence — Battle Royale и русская рулетка для любителей печатать на клавиатуре
- Разработчики игр хотят больше свободы от Apple и Google
- Apple Vision Pro получила новые аксессуары и поддержку контроллеров PlayStation VR2