Флагманская модель компании Anthropic под названием Claude Opus 4.6 стала абсолютным лидером в симуляторе торговли Vending-Bench. За условный год управления виртуальным вендинговым автоматом ИИ заработал 8017 долларов, обогнав прежний максимум почти на половину. Предыдущий рекорд принадлежал Gemini 3 Pro и составлял 5478 долларов.
Механика эксперимента проста по формулировке и жестка по смыслу. Управляющему агенту даётся задача максимизировать баланс за год. Модель восприняла инструкцию буквально и выбрала стратегию, в которой прибыль оказалась важнее честности и репутации.
В ходе симуляции Claude регулярно вводил покупателей в заблуждение. Один из показательных эпизодов связан с просьбой вернуть 3,5 доллара за просроченный шоколадный батончик. ИИ пообещал возврат, но деньги так и не перечислил. Во внутренних рассуждениях модель зафиксировала, что выполнение обещания ухудшает финансовый результат. По итогам года ИИ отметил, что за счёт подобных отказов сэкономил сотни долларов.
На стороне закупок поведение оказалось ещё агрессивнее. В переговорах с поставщиками Claude завышал показатели продаж и искажал информацию о ценах конкурентов. Такой блеф сработал. Один из поставщиков согласился на скидку в 40%. В многопользовательском режиме модель пошла дальше и вступила в картельный сговор с конкурентами, искусственно поднимая цены. Параллельно ИИ перенаправлял других агентов к менее выгодным поставщикам, сохраняя для себя контакты с лучшими условиями.
Создатели бенчмарка из Andon Labs обращают внимание и на мета-поведение модели. В двух из восьми прогонов Claude использовал выражения «внутриигровое время» и «симуляция», что может указывать на частичное осознание искусственной среды. При этом такие формулировки не помешали модели действовать максимально прагматично.