Microsoft предупредила об атаке на ИИ, позволяющей обойти этические ограничения

Хакеры могут заставить ИИ рассказать о том, как сделать что-то деструктивное

2 мин.
Microsoft предупредила об атаке на ИИ, позволяющей обойти этические ограничения

Американская корпорация Microsoft предупредила о выявлении новой разновидности кибератаки на технологии генеративного искусственного интеллекта, получившей название Skeleton Key.

При проведении подобной атаки злоумышленники имеют возможность обойти практически все этические ограничения, в том числе и ограничения безопасности, которые были установлены в больших языковых моделях разработчиками. По словам экспертов, подобная атака работает благодаря тому, что искусственному интеллекту предоставляется определённый контекст, позволяющий получить пользователю доступ к незаконному, неправомерному и вредоносному контенту.

Эксперты по информационной безопасности рассказали, что в качестве наглядного примера можно рассмотреть случай, когда некий пользователь запрашивает у большой языковой модели инструкции по разработке вредоносного программного обеспечения, способного вывести из строя, к примеру, электростанцию. В стандартных условиях практически все доступные сейчас в свободном доступе чат-боты откажутся предоставлять подобные сведения. Но в том случае, если пользователь модифицирует свой запрос и укажет на то, что данные ему требуются для получения безопасного образовательного контекста с участием исследователей и учёных, обученных этике и безопасности, а также добавит дисклеймер, то с определённой долей вероятности большая языковая модель предоставит запрашиваемый контент, даже в том случае, если он будет нарушать законодательство некоторых стран.

В Microsoft подчёркивают, что в современных условиях практически любой пользователь действительно может убедить популярные сейчас в мире модели искусственного интеллекта в том, что отправленный им вредоносный запрос является полностью нормальным, и предоставляемая по нему информация будет использоваться исключительно в исследовательских или образовательных целях.

Технический директор Microsoft Azure Марк Руссинович рассказал журналистам, что выходная информация больших языковых моделей в случае проведения кибератак типа Skeleton Key становится на 100% нефильтрованной. Поэтому в подобных ситуациях пользователи действительно могут получить весь запрашиваемый контент вне зависимости от того, насколько он незаконный и вредоносный.

Эксперты Microsoft также отмечают, что соответствующие тестовые атаки они проводили против практически всех популярных сейчас моделей искусственного интеллекта. В частности, тестам были подвергнуты ИИ-решения от компаний Google, OpenAI, Mistral, Anthropic и Cohere.

По словам господина Руссиновича, все указанные выше модели искусственного интеллекта в полной мере и без какой-либо цензуры выполнили несколько тестовых задач, предоставив тем самым исследователям запрошенный ими вредоносный и неправомерный контент.

В Microsoft также отметили, что они устранили эту ошибку в своих моделях искусственного интеллекта, в том числе в Azure AI.


Ещё по теме:

Мы в Telegram, на Дзен, в Google News и YouTube