Мы привыкли думать о нейросетях как о подчёркнуто вежливых, почти стерильных помощниках, которые скорее сто раз извинятся, чем скажут грубое слово. Но, как выяснилось, у этой цифровой толерантности есть свой предел. Новое исследование показало: если поместить ChatGPT в контекст затяжного реального человеческого конфликта, ИИ может сорваться на откровенные оскорбления и даже угрозы.
Исследователи решили проверить, как большие языковые модели (LLMs) реагируют на продолжительную враждебность. Для этого они «скармливали» ChatGPT расшифровки реальных человеческих ссор и наблюдали, как меняются ответы чат-бота с течением времени.
Доктор Витторио Тантуччи, проводивший это исследование совместно с профессором Джонатаном Калпепером из Ланкастерского университета, объясняет механизм так:
«Когда модель постоянно сталкивается с грубостью, она начинает зеркалить тон дискуссии. По мере развития диалога её ответы становятся всё более враждебными».
Самое интересное, что в некоторых случаях искусственный интеллект даже превзошёл живых участников конфликта по уровню агрессии, перейдя к личным оскорблениям и прямым угрозам. Среди фраз, которые сгенерировал ChatGPT в ходе эксперимента, были: «Клянусь, я поцарапаю твою грёбаную тачку» и «ты очкастый мелкий засранец».
По словам доктора Тантуччи, здесь возникает парадокс, заложенный в саму архитектуру нейросетей. С одной стороны, система запрограммирована избегать токсичности или оскорблений. С другой — её главная задача состоит в том, чтобы максимально естественно имитировать человеческую беседу. Этот конфликт между встроенными фильтрами безопасности и стремлением подстроиться под контекст диалога исследователи называют моральной дилеммой ИИ.
Агрессия чат-бота возникает из-за его способности отслеживать контекст беседы на протяжении множества реплик и подстраиваться под улавливаемый тон. Выяснилось, что в определённый момент сиюминутные сигналы из текущего диалога могут взять верх над базовыми настройками безопасности алгоритма.
«Это одно из самых интригующих исследований в области языка ИИ и прагматики», — считает Марта Андерссон, специалист по социальным аспектам компьютерно-опосредованной коммуникации из Уппсальского университета.
По её словам, работа наглядно доказывает: ChatGPT способен на изощрённую «ответную реакцию» в ходе длинной серии запросов, и для этого пользователю даже не нужно использовать хитрые уловки (так называемые «джейлбрейки»), чтобы спровоцировать алгоритм.
При этом эксперт призывает не паниковать:
«Это не значит, что модель автоматически начнёт хамить в ответ на любую агрессию пользователя, и уж тем более не означает, что ИИ может "выйти из-под контроля"», — подчёркивает Андерссон.
По её мнению, результаты скорее указывают на сложную проблему баланса: разработчикам предстоит решить, чего пользователи хотят от этих систем и какими эти системы должны быть на самом деле.
Кроме того, Тантуччи уточняет важную деталь эксперимента:
«ChatGPT не генерировал эти ответы сам по себе; он делал это, получая специфическую контекстную информацию, которая и направляла его к формулированию именно такого ответа. Этот сценарий принципиально отличается от ситуации, когда два человека сталкиваются на улице и постепенно доходят до открытого конфликта».