ИИ под ударом хакеров и провокаторов, поэтому Google запускает защиты от атак нового поколения

Компания Google сообщила о внедрении масштабного комплекса защитных механизмов в свои ИИ-модели. Новая система безопасности должна защитить от опасных манипуляций, маскируемых под обычные данные — новых приёмов, которые набирают популярность у злоумышленников.

Подразумеваются так называемые косвенные инъекции подсказок — метод скрытого воздействия, при котором вредоносный код внедряется в электронные письма, текстовые файлы, календари или ссылки. В отличие от прямых команд, здесь ИИ взаимодействует с уже заражённой информацией, что может привести к утечке данных, активации вредоносных скриптов или выполнению непреднамеренных действий.

Чтобы противостоять таким схемам, Google использует многоступенчатую архитектуру защиты. Она охватывает как внутренние алгоритмы, повышающие устойчивость моделей, так и дополнительные уровни фильтрации угроз на всех этапах обработки данных.

Особое внимание уделено ИИ-системе Gemini, для которой реализованы следующие меры:

встроенные классификаторы, блокирующие агрессивные и опасные команды в текстах;
использование метода spotlighting, при котором подозрительные источники помечаются специальными маркерами;
предварительная проверка URL-адресов, зачистка разметки markdown и фильтрация вредоносных изображений с применением Google Safe Browsing;
активация режима подтверждения операций пользователем, если запрашиваемое действие может быть опасным;
система автоматических уведомлений о признаках вмешательства с предупреждением о возможной инъекции.

При этом специалисты Google и DeepMind отмечают, что угрозы быстро эволюционируют. В ход идут динамические методы, при которых вредоносные команды адаптируются под систему защиты. Это достигается с помощью автоматизированных атакующих симуляций — процесса, известного под названием Automated Red Teaming.

По мнению инженеров и аналитиков, эффективная защита невозможна без комплексного подхода. Необходимо обеспечить не только способность самих моделей обнаруживать попытки манипуляции, но и задействовать барьеры на уровне серверов, платформ и протоколов обработки данных.

Ещё по теме:

Мы в Telegram, на Дзен, в Google News и YouTube

ИИ под ударом хакеров и провокаторов, поэтому Google запускает защиты от атак нового поколения

Кирилл Поляков

Банки хотят обязать мессенджеры мгновенно прерывать подозрительные звонки и чаты при выявлении признаков мошенничества

Прошло пять лет с момента перехода Mac на Apple Silicon