OpenAI признаёт: ИИ-браузеры никогда не будут полностью защищены от промпт-инъекций

Пока OpenAI работает над укреплением защиты своего ИИ-браузера Atlas от кибератак, компания вынуждена признать неприятную правду: промпт-инъекции (тип атак, заставляющих ИИ выполнять скрытые вредоносные инструкции) – это риск, который в ближайшее время никуда не исчезнет. Это заявление ставит под вопрос безопасность работы ИИ-агентов в открытом интернете.

«Промпт-инъекции, подобно мошенничеству и социальной инженерии в интернете, вряд ли когда-либо будут полностью решены», — отметили представители OpenAI в корпоративном блоге.

Компания подробно рассказала о мерах по усилению «брони» Atlas, но признала, что «агентный режим» в браузере неизбежно «расширяет поверхность угроз».

OpenAI представила браузер Atlas на базе ChatGPT в октябре 2025 года. Исследователи безопасности практически мгновенно опубликовали демонстрации взломов: оказалось, что всего несколько слов, скрытых в Google Docs, способны изменить поведение браузера. В тот же день разработчики браузера Brave выпустили статью, объясняющую, что непрямые промпт-инъекции — это системный вызов для всех браузеров с ИИ, включая Comet от Perplexity.

OpenAI не одинока в своих опасениях. Ранее в этом месяце Национальный центр кибербезопасности Великобритании (NCSC) предупредил, что атаки через внедрение промптов в генеративные ИИ «возможно, никогда не будут полностью устранены», что ставит веб-сайты под угрозу утечек данных. Британское ведомство посоветовало специалистам сосредоточиться на снижении рисков и последствий, а не надеяться на полную блокировку таких атак.

«Мы рассматриваем промпт-инъекции как долгосрочный вызов безопасности ИИ, и нам придётся постоянно укреплять нашу оборону», — заявили в OpenAI.

Ответом компании на эту бесконечную гонку стал цикл проактивного быстрого реагирования. OpenAI утверждает, что уже видит первые успехи в обнаружении новых стратегий атак внутри компании до того, как они будут использованы злоумышленниками.

Этот подход перекликается с тем, что говорят конкуренты, такие как Anthropic и Google: защита должна быть многоуровневой и постоянно проходить стресс-тесты. Однако OpenAI выбрала особую тактику, создав «автоматизированного атакующего на базе LLM».

По сути, это бот, прошедший обучение с подкреплением, роль котрого играть хакера. Он ищет способы незаметно передать вредоносные инструкции ИИ-агенту. Бот тестирует атаки в симуляции, анализирует реакцию цели, корректирует стратегию и повторяет попытку. Поскольку бот «видит» внутреннюю логику жертвы (чего лишены реальные хакеры), теоретически он способен находить уязвимости быстрее.

«Наш атакующий, обученный с подкреплением, может направить агента на выполнение сложных, долгосрочных вредоносных сценариев, которые разворачиваются на протяжении десятков (или даже сотен) шагов, — отмечают в OpenAI. — Мы также наблюдали новые стратегии атак, которые не появлялись в ходе проверок с участием людей или во внешних отчётах».

В одной из демонстраций OpenAI показала, как их автоматизированный хакер подбросил вредоносное письмо во входящие сообщения пользователя. Когда ИИ-агент сканировал почту, он выполнил скрытые инструкции и вместо черновика автоответа «меня нет в офисе» отправил сообщение об увольнении. После обновления безопасности «агентный режим» смог распознать попытку инъекции и предупредить пользователя.

Представитель OpenAI отказался сообщить, привело ли обновление безопасности Atlas к измеримому снижению успешных атак, но отметил, что компания сотрудничает со сторонними организациями для защиты браузера ещё до его запуска.

Рами Маккарти, главный исследователь безопасности в компании Wiz, считает, что обучение с подкреплением — это способ адаптации к поведению атакующих, но лишь часть решения.

«Полезный способ оценки риска в ИИ-системах — это умножение автономии на доступ, — рассказал Маккарти. — Агентные браузеры занимают сложную позицию в этом пространстве: умеренная автономия в сочетании с очень высоким уровнем доступа».

Эксперт подчёркивает, что ограничение доступа (например, к залогиненным сессиям) снижает уязвимость, а требование подтверждения действий ограничивает автономию. Именно эти меры рекомендует и OpenAI: компания советует пользователям давать агентам конкретные инструкции, а не предоставлять доступ к почте с размытой командой «сделай всё, что нужно».

«Широкие полномочия облегчают скрытому или вредоносному контенту возможность влиять на агента, даже при наличии защитных механизмов», — подтверждают в OpenAI.

Несмотря на заверения разработчиков о приоритетности безопасности, Маккарти скептически оценивает целесообразность использования таких инструментов на данном этапе.

«Для большинства повседневных сценариев агентные браузеры пока не приносят достаточной пользы, чтобы оправдать их текущий профиль риска, — резюмирует Маккарти. — Риск высок из-за доступа к чувствительным данным, таким как электронная почта и платёжная информация, хотя именно этот доступ и делает их мощными инструментами. Баланс будет меняться, но сегодня компромиссы всё ещё слишком реальны».

Ещё по теме:

Мы в Telegram, на Дзен, в Google News и YouTube

OpenAI признаёт: ИИ-браузеры никогда не будут полностью защищены от промпт-инъекций

София Лайтман

Философ: человечество рискует никогда не разгадать тайну сознания ИИ

Минцифры РФ планирует ввести единый ID для пользователей всех интернет-сервисов