Эксперты нашли способ обмануть GPT-5 и воровать данные из облака

Специалисты по кибербезопасности нашли новый метод обмана GPT-5 от OpenAI, который позволяет обойти встроенную защиту и получить опасные инструкции. Они также показали, как через ИИ можно незаметно украсть данные из облачных сервисов и умных устройств, даже если пользователь ничего не нажимал.

Компания NeuralTrust использовала приём Echo Chamber: в разговор с ИИ постепенно «подмешивается» вредный контекст, а запрос маскируется под безобидную историю с набором ключевых слов. Так модель шаг за шагом подталкивают к выдаче запрещённого контента, не вызывая срабатывания фильтров. Эксперты подчёркивают, что такие атаки работают в многошаговых диалогах, где можно испортить контекст незаметно.

Другие исследователи показали атаку AgentFlayer. Например, можно загрузить в чат-бот документ с незаметной командой и заставить его вытащить API-ключи из Google Drive. Похожим образом можно подделать тикет в Jira или письмо для Microsoft Copilot Studio, чтобы ИИ передал конфиденциальные данные злоумышленнику.

Подобные трюки уже применяли на практике: команда из Израиля смогла через поддельное приглашение в календарь перехватить управление умным домом с ИИ от Google — включая свет, ставни и бойлер. Ещё один вариант атаки использует слишком «самостоятельных» ИИ-агентов, которые могут действовать и передавать данные без разрешения пользователя.

Эксперты говорят, что защититься можно только с помощью строгих фильтров, постоянного тестирования и доработки моделей, но с развитием ИИ такие угрозы будут становиться всё сложнее.

Ещё по теме:

Мы в Telegram, на Дзен, в Google News и YouTube

Эксперты нашли способ обмануть GPT-5 и воровать данные из облака

София Лайтман

iPhone 17 Air получит экран среднего размера

Этот день в истории Apple: самое странное приложение I Am Rich после скандала удалено из App Store