Компания Google сообщила о внедрении масштабного комплекса защитных механизмов в свои ИИ-модели. Новая система безопасности должна защитить от опасных манипуляций, маскируемых под обычные данные — новых приёмов, которые набирают популярность у злоумышленников.
Подразумеваются так называемые косвенные инъекции подсказок — метод скрытого воздействия, при котором вредоносный код внедряется в электронные письма, текстовые файлы, календари или ссылки. В отличие от прямых команд, здесь ИИ взаимодействует с уже заражённой информацией, что может привести к утечке данных, активации вредоносных скриптов или выполнению непреднамеренных действий.
Чтобы противостоять таким схемам, Google использует многоступенчатую архитектуру защиты. Она охватывает как внутренние алгоритмы, повышающие устойчивость моделей, так и дополнительные уровни фильтрации угроз на всех этапах обработки данных.
Особое внимание уделено ИИ-системе Gemini, для которой реализованы следующие меры:
- встроенные классификаторы, блокирующие агрессивные и опасные команды в текстах;
- использование метода spotlighting, при котором подозрительные источники помечаются специальными маркерами;
- предварительная проверка URL-адресов, зачистка разметки markdown и фильтрация вредоносных изображений с применением Google Safe Browsing;
- активация режима подтверждения операций пользователем, если запрашиваемое действие может быть опасным;
- система автоматических уведомлений о признаках вмешательства с предупреждением о возможной инъекции.
При этом специалисты Google и DeepMind отмечают, что угрозы быстро эволюционируют. В ход идут динамические методы, при которых вредоносные команды адаптируются под систему защиты. Это достигается с помощью автоматизированных атакующих симуляций — процесса, известного под названием Automated Red Teaming.
По мнению инженеров и аналитиков, эффективная защита невозможна без комплексного подхода. Необходимо обеспечить не только способность самих моделей обнаруживать попытки манипуляции, но и задействовать барьеры на уровне серверов, платформ и протоколов обработки данных.
Ещё по теме:
- Банки хотят обязать мессенджеры мгновенно прерывать подозрительные звонки и чаты при выявлении признаков мошенничества
- iOS 26 может случайно раскрыть разрешение экрана iPhone 17 Air
- Что мы будем делать в мире без работы