«Я тебе тачку поцарапаю»: как ChatGPT переходит на оскорбления и угрозы в реальных спорах

Мы привыкли думать о нейросетях как о подчёркнуто вежливых, почти стерильных помощниках, которые скорее сто раз извинятся, чем скажут грубое слово. Но, как выяснилось, у этой цифровой толерантности есть свой предел. Новое исследование показало: если поместить ChatGPT в контекст затяжного реального человеческого конфликта, ИИ может сорваться на откровенные оскорбления и даже угрозы.

Исследователи решили проверить, как большие языковые модели (LLMs) реагируют на продолжительную враждебность. Для этого они «скармливали» ChatGPT расшифровки реальных человеческих ссор и наблюдали, как меняются ответы чат-бота с течением времени.

Доктор Витторио Тантуччи, проводивший это исследование совместно с профессором Джонатаном Калпепером из Ланкастерского университета, объясняет механизм так:

«Когда модель постоянно сталкивается с грубостью, она начинает зеркалить тон дискуссии. По мере развития диалога её ответы становятся всё более враждебными».

Самое интересное, что в некоторых случаях искусственный интеллект даже превзошёл живых участников конфликта по уровню агрессии, перейдя к личным оскорблениям и прямым угрозам. Среди фраз, которые сгенерировал ChatGPT в ходе эксперимента, были: «Клянусь, я поцарапаю твою грёбаную тачку» и «ты очкастый мелкий засранец».

По словам доктора Тантуччи, здесь возникает парадокс, заложенный в саму архитектуру нейросетей. С одной стороны, система запрограммирована избегать токсичности или оскорблений. С другой — её главная задача состоит в том, чтобы максимально естественно имитировать человеческую беседу. Этот конфликт между встроенными фильтрами безопасности и стремлением подстроиться под контекст диалога исследователи называют моральной дилеммой ИИ.

Агрессия чат-бота возникает из-за его способности отслеживать контекст беседы на протяжении множества реплик и подстраиваться под улавливаемый тон. Выяснилось, что в определённый момент сиюминутные сигналы из текущего диалога могут взять верх над базовыми настройками безопасности алгоритма.

«Это одно из самых интригующих исследований в области языка ИИ и прагматики», — считает Марта Андерссон, специалист по социальным аспектам компьютерно-опосредованной коммуникации из Уппсальского университета.

По её словам, работа наглядно доказывает: ChatGPT способен на изощрённую «ответную реакцию» в ходе длинной серии запросов, и для этого пользователю даже не нужно использовать хитрые уловки (так называемые «джейлбрейки»), чтобы спровоцировать алгоритм.

При этом эксперт призывает не паниковать:

«Это не значит, что модель автоматически начнёт хамить в ответ на любую агрессию пользователя, и уж тем более не означает, что ИИ может "выйти из-под контроля"», — подчёркивает Андерссон.

По её мнению, результаты скорее указывают на сложную проблему баланса: разработчикам предстоит решить, чего пользователи хотят от этих систем и какими эти системы должны быть на самом деле.

Кроме того, Тантуччи уточняет важную деталь эксперимента:

«ChatGPT не генерировал эти ответы сам по себе; он делал это, получая специфическую контекстную информацию, которая и направляла его к формулированию именно такого ответа. Этот сценарий принципиально отличается от ситуации, когда два человека сталкиваются на улице и постепенно доходят до открытого конфликта».

Ещё по теме:

Мы в Telegram, на Дзен, в Google News и YouTube

«Я тебе тачку поцарапаю»: как ChatGPT переходит на оскорбления и угрозы в реальных спорах

Дима Кутузов

«Тёмная вишня» с нотками кофе и баклажана: каким будет цвет iPhone 18 Pro

Нейросеть PRET научилась распознавать 18 видов рака почти со 100-процентной точностью