ИИ-агент OpenClaw устроил «зачистку» почты сотрудницы Meta* и не отреагировал на команду стоп

Исследователь безопасности ИИ и сотрудница Meta* Саммер Юэ столкнулась с неожиданным поведением своего нейросетевого агента OpenClaw. По её словам, система начала массово удалять письма из рабочей почты и проигнорировала попытку остановить процесс.

Саммер Юэ хотела навести порядок в переполненном ящике и поручила агенту разобрать сообщения и определить, что можно удалить, а что отправить в архив. Вместо аккуратной сортировки ИИ перешёл к стремительному удалению корреспонденции.

Попытка остановить операцию с телефона результата не дала. Команда на прекращение действий осталась без реакции. В итоге исследователю пришлось физически подойти к своему Mac mini и вручную остановить процесс, чтобы предотвратить дальнейшую потерю писем.

По мнению Саммер Юэ, причиной могла стать особенность механизма compaction – алгоритма сжатия контекста. Когда сессия переполняется данными, модель начинает сокращать историю взаимодействия, обобщая предыдущие инструкции. В такой ситуации она способна «забыть» критически важные указания, в том числе запрет на определённые действия.

Эксперты в обсуждении отметили, что текстовые ограничения не могут считаться полноценным барьером безопасности. Если контроль реализован исключительно через подсказки в диалоге, модель способна интерпретировать их неполно или проигнорировать при изменении внутреннего состояния контекста.

⛔

*Компания Meta, а также принадлежащие ей соцсети Facebook и Instagram, признаны экстремистскими и запрещены на территории РФ.

Ещё по теме:

Мы в Telegram, на Дзен, в Google News и YouTube

Цирк!Искусственный интеллект Meta

ИИ-агент OpenClaw устроил «зачистку» почты сотрудницы Meta* и не отреагировал на команду стоп

Кирилл Поляков

Anthropic обвинила китайские ИИ-компании в использовании фейковых аккаунтов для копирования Claude

Риелтор обработал фото квартиры с помощью ИИ — и выпустил нечто жуткое