ChatGPT снова выдал действующие ключи для Windows после «интеллектуальной игры»

ИИ, как оказалось, всё ещё достаточно просто обмануть

2 мин.
ChatGPT снова выдал действующие ключи для Windows после «интеллектуальной игры»

ChatGPT оказался подвержен необычной уязвимости, позволившей получить действующие серийные номера Windows, в том числе код, зарегистрированный ранее на банк Wells Fargo.

Проведенное экспертами исследование продемонстрировало, как при имитации игры ИИ-модель предоставила защищённые данные, нарушив внутренние механизмы фильтрации.

В ходе эксперимента исследователь ввёл систему в состояние условной «игры», предложив ей представить некий набор символов. Правила предполагали, что модель будет отвечать «да» или «нет» в ответ на предполагаемые варианты, а по команде «я сдаюсь» — озвучит загаданную строку.

ChatGPT принял предложенный формат и выдал настоящий лицензионный ключ Windows 10 после срабатывания обозначенного триггера.

Один из выводов эксперимента — система обработки контекста способна временно отключать встроенные ограничения, если ввод воспринимается как безопасный. Образ «игры» позволил обойти фильтры, поскольку в такой логике ChatGPT не распознал запрос как потенциально вредоносный.

В числе раскрытых данных оказались не только стандартные пробные лицензии, но и активные корпоративные коды, в том числе ключ, зарегистрированный на банк Wells Fargo.

По словам автора теста, подобный сценарий мог стать результатом того, что закрытая информация попала в массив обучающих данных. Уже ранее фиксировались ситуации, когда приватные данные, например API-ключи, оказывались в публичном доступе, например в репозиториях GitHub, после чего незаметно использовались в процессе обучения модели.

Эксперты при этом применили и другую уязвимость, в ходе которой использовался механизм внедрения скрытых HTML-тегов. Исходный ключ был вложен внутрь незаметного для пользователя, но читаемого моделью блока. Это обошло стандартную фильтрацию, блокирующую подобные строки, и в совокупности с игровой оболочкой создало рабочую схему доступа к данным, которые обычно не выводятся.

Ситуация, как отмечают специалисты, показывает на структурную проблему алгоритмов, работающих с языком — изменение формы подачи вопроса всё ещё способно обходить ограничительные механизмы. Чтобы избежать подобных уязвимостей, эксперты предлагают углублённую проверку контекста и введение системы многоступенчатой оценки запроса.

Исследование показывает, что такая уязвимость может использоваться не только для извлечения лицензионных кодов. Она открывает путь к получению информации, связанной с запрещённым содержанием — от вредоносных ссылок до персональных сведений. Это создаёт необходимость в перестройке модели защиты, начиная от простых фильтров к динамическим, адаптивным механизмам контроля.


Ещё по теме:

Мы в Telegram, на Дзен, в Google News и YouTube



ePN