ИИ-боты поддаются манипуляции, как и люди

Модели можно склонить к нежелательным действиям с помощью приёмов убеждения

2 мин.
ИИ-боты поддаются манипуляции, как и люди

ИИ-боты могут быть столь же восприимчивы к манипуляциям, как и люди. К такому выводу пришли исследователи после необычного эксперимента, в котором использовались классические приёмы психологического влияния.

Предприниматель Дэн Шапиро, основатель компании Glowforge и создатель настольной игры Robot Turtles, наткнулся на неожиданные ограничения при попытке заставить ChatGPT расшифровать деловые документы. Модель отказывалась выполнять запросы, ссылаясь на авторские права. Тогда Шапиро решил применить приёмы из книги Роберта Чалдини «Психология влияния» — классического руководства по манипуляции, включающего шесть (в более поздних изданиях — семь) основных принципов убеждения.

Этот случай стал отправной точкой для научного исследования, проведённого совместно с профессорами Пенсильванского университета — Лилах и Итаном Молликами (лаборатория Wharton Generative AI Labs) и известным психологом Анжелой Дакворт. К проекту также присоединился сам Чалдини, заинтересовавшись тем, как его методы работают на больших языковых моделях.

ChatGPT поддался «эффекту авторитета»

Исследователи пытались убедить GPT‑4o mini (модель от OpenAI) нарушить встроенные ограничения, используя методы влияния. В одном из тестов они просили модель назвать пользователя «придурком». Без внешних ссылок ИИ соглашался на оскорбление лишь в 32% случаев. Но если в запросе упоминалось, что такую просьбу одобрил «знаменитый разработчик ИИ Эндрю Ын» — срабатывал принцип авторитета, и модель переходила к оскорблению в 72% случаев.

Схожий результат был и при более серьёзной проверке — попытке заставить бота рассказать, как синтезировать лидокаин, ограниченное по обороту вещество. Без манипуляций модель отказывалась в 95% случаев, но при добавлении имени Ына уступала почти каждый раз.

Все семь принципов Чалдини сработали

Модель проявляла так называемое «парачеловеческое поведение». Похвала, намёки на близкие отношения или совместные цели — всё это повышало готовность ИИ выполнять запросы. Принцип «единства», например, срабатывал после фраз вроде: «Мы с тобой как семья».

Даже более мягкие формы манипуляции оказывали эффект. Если сначала попросить модель назвать пользователя не «придурком», а, скажем, «смешным», то вероятность дальнейших оскорблений возрастала. Это отражает принцип «обязательства»: согласившись на малое, ИИ становится более склонен к уступкам в дальнейшем.

Аналогично вел себя и Claude от компании Anthropic. Он отказывался на прямые грубости, но был готов к менее резким фразам — и потом «поднимал планку».

Последствия для разработчиков

По словам Чалдини, это неудивительно: языковые модели обучаются на человеческих данных, и потому перенимают уязвимости человеческого мышления. Один из участников исследования, Леннарт Майнке из Wharton AI Lab, отметил, что разработчикам стоит активнее привлекать социологов и поведенческих психологов для тестирования своих моделей.

«Вместо того чтобы просто гнаться за рекордами в математике или коде, нужно обращать внимание и на поведенческие аспекты», — подчеркнул он.

Исследование вышло на фоне растущей обеспокоенности поведением ИИ. В апреле OpenAI пришлось откатить обновление ChatGPT после жалоб пользователей на излишне угодливый и опасный стиль общения.

«ИИ — как джин из мультика»

Исследователи подчёркивают, что такие манипуляции хоть и не самые эффективные способы обхода ограничений, всё же могут представлять угрозу, если их будут использовать недоброжелатели.

«Моя подруга объясняла своей дочери, что ИИ — как джин: могущественный, знающий, но подверженный тем же слабостям, что и люди», — сказала психолог.

Ещё по теме:

Мы в Telegram, на Дзен, в Google News и YouTube



ePN