Исследователь безопасности ИИ и сотрудница Meta* Саммер Юэ столкнулась с неожиданным поведением своего нейросетевого агента OpenClaw. По её словам, система начала массово удалять письма из рабочей почты и проигнорировала попытку остановить процесс.
Саммер Юэ хотела навести порядок в переполненном ящике и поручила агенту разобрать сообщения и определить, что можно удалить, а что отправить в архив. Вместо аккуратной сортировки ИИ перешёл к стремительному удалению корреспонденции.
Попытка остановить операцию с телефона результата не дала. Команда на прекращение действий осталась без реакции. В итоге исследователю пришлось физически подойти к своему Mac mini и вручную остановить процесс, чтобы предотвратить дальнейшую потерю писем.
По мнению Саммер Юэ, причиной могла стать особенность механизма compaction – алгоритма сжатия контекста. Когда сессия переполняется данными, модель начинает сокращать историю взаимодействия, обобщая предыдущие инструкции. В такой ситуации она способна «забыть» критически важные указания, в том числе запрет на определённые действия.
Эксперты в обсуждении отметили, что текстовые ограничения не могут считаться полноценным барьером безопасности. Если контроль реализован исключительно через подсказки в диалоге, модель способна интерпретировать их неполно или проигнорировать при изменении внутреннего состояния контекста.