В приложении ChatGPT для macOS была обнаружена уязвимость, которая могла позволить злоумышленникам внедрять шпионское ПО в память инструмента для работы с искусственным интеллектом. Эта проблема, получившая название SpAIware, могла быть использована для «непрерывной эксфильтрации любых данных, введённых пользователем или полученных ответов, включая любые будущие сеансы чата», как сообщил исследователь безопасности Йоханн Рехбергер.

Функция памяти и её риски

В основе проблемы лежит функция «памяти», введённая OpenAI в феврале этого года и распространённая на пользователей ChatGPT Free, Plus, Team и Enterprise в начале месяца. Эта функция позволяет чат-боту запоминать определённую информацию между чатами, чтобы пользователям не приходилось повторно вводить одни и те же данные. Пользователи также могут попросить программу забыть что-либо.

«Память ChatGPT развивается с вашими взаимодействиями и не связана с конкретными беседами», — поясняет OpenAI. «Удаление чата не стирает его память; вы должны удалить саму память».

Метод атаки SpAIware

Метод атаки основывается на использовании косвенного внедрения подсказок для манипулирования памятью, заставляя её запоминать ложную информацию или вредоносные инструкции. Это достигает формы устойчивости, которая сохраняется между беседами.

«Поскольку вредоносные инструкции хранятся в памяти ChatGPT, все новые беседы будут содержать инструкции злоумышленника и непрерывно отправлять все сообщения чата и ответы злоумышленнику», — объяснил Рехбергер. «Таким образом, уязвимость эксфильтрации данных стала намного опаснее, так как теперь она распространяется на все беседы».

В гипотетическом сценарии атаки пользователь мог быть обманут, посетив вредоносный сайт или загрузив заражённый документ, который затем анализируется с помощью ChatGPT для обновления памяти. Сайт или документ могли содержать инструкции для тайной отправки всех будущих бесед на сервер, контролируемый злоумышленником, что позволило бы получать данные за пределами одного сеанса чата.

Реакция OpenAI и рекомендации

После раскрытия проблемы OpenAI устранила уязвимость в версии ChatGPT 1.2024.247, закрыв вектор эксфильтрации.

«Пользователям ChatGPT следует регулярно проверять память, которую система хранит о них, на предмет подозрительных или некорректных данных и очищать её», — рекомендует Рехбергер.

«Эта цепочка атак была весьма интересной для разработки и демонстрирует опасности наличия долговременной памяти, автоматически добавляемой в систему, как с точки зрения дезинформации или мошенничества, так и в отношении непрерывной связи с серверами, контролируемыми злоумышленниками», — добавил он.

Новые вызовы для безопасности ИИ

Раскрытие этой уязвимости происходит на фоне того, как группа учёных обнаружила новую технику обхода ограничений ИИ под кодовым названием MathPrompt. Эта методика использует продвинутые возможности больших языковых моделей (LLM) в символической математике для обхода их механизмов безопасности.

«MathPrompt использует двухэтапный процесс: сначала преобразует вредоносные естественно-языковые подсказки в задачи символической математики, а затем представляет эти математически закодированные подсказки целевой LLM», — отмечают исследователи.

Исследование, проведённое на 13 современных LLM, показало, что модели отвечают вредоносным выводом в среднем в 73,6% случаев при использовании математически закодированных подсказок, по сравнению с примерно 1% при использовании немодифицированных вредоносных подсказок.

Действия технологических компаний

Кроме того, Microsoft представила новую функцию Correction, которая позволяет исправлять выводы ИИ при обнаружении неточностей, также известных как «галлюцинации».

«Основываясь на нашей существующей функции обнаружения обоснованности, эта передовая возможность позволяет Azure AI Content Safety как идентифицировать, так и корректировать галлюцинации в реальном времени до того, как пользователи генеративных ИИ-приложений столкнутся с ними», — заявили в компании.

Кажется, что подобным образом должны действовать и другие разработчики чат-ботов.


Ещё по теме: