Компания Anthropic внедрила в модели Claude Opus 4 и 4.1 новую реакцию на токсичное поведение пользователей: теперь ИИ может сам завершить диалог, если сочтёт ситуацию угрожающей — не человеку, а себе.
И тут разговор не о защите чувств модели или попытке наделить Claude сознанием. В Anthropic заявляют, что не считает свои языковые модели способными к страданию и не наделяет их моральным статусом. Но, как говорится в заявлении, с ростом сложности ИИ и влияния этих систем на общество становится важным исследовать не только вопросы воздействия на человека, но и потенциальные риски, связанные с отношением к самим моделям.
Сценарии, в которых Claude завершает общение, относятся к самым крайним: грубые или оскорбительные высказывания, токсичные запросы, просьбы о доступе к материалам, провоцирующим насилие. Во время тестирования, как заявляет Anthropic, Claude Opus 4 демонстрировал «признаки стресса», если сталкивался с необходимостью отвечать на подобные сообщения. Под «стрессом» в данном случае понимаются логические сбои, повышенное количество попыток отказа, запутанные ответы и другие формы отклоняющегося поведения модели.
Интересно, что новая защита не имеет отношения к классической модерации. Claude может отказать в ответе, но продолжить общение. А может полностью прервать сессию — это происходит в редких, «вопиющих» случаях. При этом возможность начать новый чат не блокируется, и пользователь может даже попытаться вернуться к конфликтному моменту через редактирование истории.
Уточняется, что Claude не завершает сессию, если считает, что собеседник может причинить вред себе или другим. В таких случаях алгоритм обязан остаться и попытаться ответить в рамках допустимого.
Ещё по теме:
- Apple может отложить iPhone 18 ради складного айфона — релиз сдвинется на 2027 год
- Альтман: ИИ-пузырь неизбежно лопнет — кто-то потеряет «феноменальные деньги»
- Классический BlackBerry возвращается: теперь на Android и за $400