Claude научили «уходить» из чата ради собственного блага

Новая защита не имеет отношения к классической модерации

1 мин.
Claude научили «уходить» из чата ради собственного блага

Компания Anthropic внедрила в модели Claude Opus 4 и 4.1 новую реакцию на токсичное поведение пользователей: теперь ИИ может сам завершить диалог, если сочтёт ситуацию угрожающей — не человеку, а себе.

И тут разговор не о защите чувств модели или попытке наделить Claude сознанием. В Anthropic заявляют, что не считает свои языковые модели способными к страданию и не наделяет их моральным статусом. Но, как говорится в заявлении, с ростом сложности ИИ и влияния этих систем на общество становится важным исследовать не только вопросы воздействия на человека, но и потенциальные риски, связанные с отношением к самим моделям.

Сценарии, в которых Claude завершает общение, относятся к самым крайним: грубые или оскорбительные высказывания, токсичные запросы, просьбы о доступе к материалам, провоцирующим насилие. Во время тестирования, как заявляет Anthropic, Claude Opus 4 демонстрировал «признаки стресса», если сталкивался с необходимостью отвечать на подобные сообщения. Под «стрессом» в данном случае понимаются логические сбои, повышенное количество попыток отказа, запутанные ответы и другие формы отклоняющегося поведения модели.

Интересно, что новая защита не имеет отношения к классической модерации. Claude может отказать в ответе, но продолжить общение. А может полностью прервать сессию — это происходит в редких, «вопиющих» случаях. При этом возможность начать новый чат не блокируется, и пользователь может даже попытаться вернуться к конфликтному моменту через редактирование истории.

Уточняется, что Claude не завершает сессию, если считает, что собеседник может причинить вред себе или другим. В таких случаях алгоритм обязан остаться и попытаться ответить в рамках допустимого.


Ещё по теме:

Мы в Telegram, на Дзен, в Google News и YouTube



ePN