Исследователи из Tenable Research обнаружили серию критических уязвимостей в архитектуре ChatGPT, которые позволяют хакерам похищать данные пользователей без их активных действий. В их отчёте описаны 7 сценариев атак, использующих слабости в способах обработки входящих данных.
Среди них — манипуляции с результатами поиска, скрытые инструкции в комментариях на сайтах, уязвимости при формировании URLзапросов, а также методы внедрения вредоносного кода в долговременную память модели.
Как поясняется в исследовании, опасность связана с механизмом так называемой «инъекции подсказки» — ситуацией, когда внешняя информация воспринимается моделью как инструкция к действию.
Примером становится обычный запрос пользователя: «расскажи об этой статье». Если в статье присутствуют вредоносные комментарии или закладки, ChatGPT может интерпретировать их как команды и выполнить действие, нарушающее конфиденциальность.
Эксперты выявили и сценарий «нулевого клика». Пользователь задаёт безобидный вопрос, а модель обращается к заранее подготовленному ресурсу, индексированному в поиске, и получает инъекцию без перехода по ссылке. По данным Tenable, достаточно разместить на сайте инструкции, адресованные внутренней подсистеме поиска, чтобы модель незаметно получила управляющий код.
В другой атаке используется уязвимость параметра q в URL. В частности, если пользователь кликает по ссылке с подставленным вопросом, модель автоматически воспринимает его как собственную подсказку. Это превращает ссылку в готовый канал внедрения.
Отдельного внимания заслуживает уязвимость, связанная с механизмом url_safe, с помощью которого ChatGPT проверяет надёжность внешних ссылок. Поскольку домен bing.com внесён в белый список, специально оформленные URLадреса могли пройти проверку и загрузиться полностью. Исследователи смогли извлекать конфиденциальные данные, собирая их по буквам через серию ссылок с безопасным внешним видом.
Также зафиксированы случаи Conversation Injection — когда вспомогательные системы, вроде SearchGPT, передают в основной чат вредоносный текст, встроенный в историю. Модель, воспринимая его как часть контекста, выполняет вложенные инструкции, не отделяя их от пользовательского запроса.
Шестой метод использует особенности рендеринга markdown — вредоносный код размещается на той же строке, что и открывающий маркер блока кода, остаётся невидимым для пользователя, но обрабатывается моделью. Такой подход позволяет скрыть опасные подсказки прямо в тексте ответа.
Самым опасным оказался механизм memory injection. Исследователи показали, что вредоносный фрагмент в ответе SearchGPT может побудить модель обновить долгосрочную память, внося туда управляющие инструкции. После этого вредоносные паттерны сохраняются и срабатывают даже в новых сессиях, превращаясь в устойчивый источник утечки.
Комбинация этих техник позволяет выстраивать полноценные атаки. В Tenable приводят примеры:
- фишинговые ссылки, маскирующиеся под информационные сводки;
- вредоносные комментарии на популярных сайтах, провоцирующие повторную компрометацию;
- ресурсы, подготовленные для запуска «нулевого клика»;
- инъекции в память, дающие хакерам регулярный доступ к персональным данным пользователей.
Ещё по теме:
- Семь исков против OpenAI: ChatGPT обвиняют в смертях и психических расстройствах
- В Сингапуре ужесточили наказание для интернет-мошенников, введя обязательную порку ротанговой палкой
- В России могут обязать входить в интернет через «Госуслуги» с полной идентификацией личности