Уязвимости Gemini: что будет, если хакеры взломают большую языковую модель Google?

Специалисты профильной компании по информационной безопасности HiddenLayer сообщили об обнаружении сразу нескольких уязвимостей в большой языковой модели Gemini, которая принадлежит корпорации Google. Выявленные ошибки представляют серьёзную угрозу безопасности этому сервису, а также затрагивают пользователей продукта Gemini Advanced в Google Workspace, а также сотрудников и клиентов других компаний, которые используют API этой языковой модели.

Первая выявленная экспертами HiddenLayer уязвимость в Gemini связана с возможностью обхода защиты для получения системных подсказок. По словам аналитиков, эту ошибку злоумышленники могут использовать, чтобы заставить нейросеть генерировать различный вредоносный контент, а также выполнять косвенные атаки путём инъекций. Это становится возможным, потому что сервис уязвим к так называемой «кибератаке синонимами», что позволяет обойти защиту и все установленные разработчиком ограничения по созданию контента.

Вторая обнаруженная уязвимость относится к эксплуатации сложных «джейлбрейков». В этом случае злоумышленники могут заставить модель Gemini создавать дезинформацию по различным темам, которые запрещены разработчиками, например, связанные с выбором президентов, а также заниматься распространением потенциально неправомерной и опасной информации.

Эксплуатация третьей уязвимости может стать причиной того, что модель Gemini начнёт сливать конфиденциальные данные в системных подсказках, в том случае, если злоумышленники передадут ей несколько необычных токенов в качестве ввода.

В результатах опубликованного исследования аналитики компании HiddenLayer также рассказывают о том, что можно выделить ещё один метод атаки, в рамках которого применяется Gemini Advanced и специально подготовленный документ Google, за счёт чего появляется возможность обходить инструкции модели и выполнять различные вредоносные действия.

Представители корпорации Google ознакомились с отчётом компании HiddenLayer и заявили, что уделяют особое внимание информационной безопасности своих больших языковых моделей и проводят тренировки для защиты от различных враждебных действий, в том числе от инъекций подсказок, джейлбрейкинга и более сложных типов киберпреступных атак. Помимо этого, в Google отметили, что в модель Gemini были введены ограничения на ответы на запросы, которые связаны с любыми президентскими выборами.

Эксперты компании HiddenLayer также подчёркивают, что обнаружение этих уязвимостей свидетельствует о необходимости систематически тестировать большие языковые модели на устойчивость к кибератакам с применением подсказок, с извлечением данных, манипулированием, враждебными примерами, отравлением данных и эксфильтрацией.

Аналитики также указывают на то, что выявленные уязвимости не являются чем-то особенным или неожиданным, поскольку такие же ошибки сейчас присутствуют во многих других популярных моделях искусственного интеллекта.

Ещё по теме: