В ChatGPT нашли уязвимость «нулевого клика»

Исследователи из Tenable Research обнаружили серию критических уязвимостей в архитектуре ChatGPT, которые позволяют хакерам похищать данные пользователей без их активных действий. В их отчёте описаны 7 сценариев атак, использующих слабости в способах обработки входящих данных.

Среди них — манипуляции с результатами поиска, скрытые инструкции в комментариях на сайтах, уязвимости при формировании URLзапросов, а также методы внедрения вредоносного кода в долговременную память модели.

Как поясняется в исследовании, опасность связана с механизмом так называемой «инъекции подсказки» — ситуацией, когда внешняя информация воспринимается моделью как инструкция к действию.

Примером становится обычный запрос пользователя: «расскажи об этой статье». Если в статье присутствуют вредоносные комментарии или закладки, ChatGPT может интерпретировать их как команды и выполнить действие, нарушающее конфиденциальность.

Эксперты выявили и сценарий «нулевого клика». Пользователь задаёт безобидный вопрос, а модель обращается к заранее подготовленному ресурсу, индексированному в поиске, и получает инъекцию без перехода по ссылке. По данным Tenable, достаточно разместить на сайте инструкции, адресованные внутренней подсистеме поиска, чтобы модель незаметно получила управляющий код.

В другой атаке используется уязвимость параметра q в URL. В частности, если пользователь кликает по ссылке с подставленным вопросом, модель автоматически воспринимает его как собственную подсказку. Это превращает ссылку в готовый канал внедрения.

Отдельного внимания заслуживает уязвимость, связанная с механизмом url_safe, с помощью которого ChatGPT проверяет надёжность внешних ссылок. Поскольку домен bing.com внесён в белый список, специально оформленные URLадреса могли пройти проверку и загрузиться полностью. Исследователи смогли извлекать конфиденциальные данные, собирая их по буквам через серию ссылок с безопасным внешним видом.

Также зафиксированы случаи Conversation Injection — когда вспомогательные системы, вроде SearchGPT, передают в основной чат вредоносный текст, встроенный в историю. Модель, воспринимая его как часть контекста, выполняет вложенные инструкции, не отделяя их от пользовательского запроса.

Шестой метод использует особенности рендеринга markdown — вредоносный код размещается на той же строке, что и открывающий маркер блока кода, остаётся невидимым для пользователя, но обрабатывается моделью. Такой подход позволяет скрыть опасные подсказки прямо в тексте ответа.

Самым опасным оказался механизм memory injection. Исследователи показали, что вредоносный фрагмент в ответе SearchGPT может побудить модель обновить долгосрочную память, внося туда управляющие инструкции. После этого вредоносные паттерны сохраняются и срабатывают даже в новых сессиях, превращаясь в устойчивый источник утечки.

Комбинация этих техник позволяет выстраивать полноценные атаки. В Tenable приводят примеры:

фишинговые ссылки, маскирующиеся под информационные сводки;
вредоносные комментарии на популярных сайтах, провоцирующие повторную компрометацию;
ресурсы, подготовленные для запуска «нулевого клика»;
инъекции в память, дающие хакерам регулярный доступ к персональным данным пользователей.

Ещё по теме:

Мы в Telegram, на Дзен, в Google News и YouTube

Исследования ChatGPT

В ChatGPT нашли уязвимость «нулевого клика»

Кирилл Поляков

Семь исков против OpenAI: ChatGPT обвиняют в смертях и психических расстройствах

Этот день в истории Apple: компания выпускает последнюю модель линейки Newton MessagePad