Исследователи из Microsoft и Университета штата Аризона провели эксперимент, в котором проверили, как современные языковые модели справляются с автономной работой в условиях искусственного рынка. Проект получил название Magentic Marketplace и показал, что даже самые продвинутые ИИ, в том числе GPT5 и Gemini 2.5, не могут эффективно выполнять элементарные задачи без внешнего контроля.
В ходе эксперимента моделировалась повседневная ситуация — пользователь просит цифрового агента заказать еду. За выполнение задачи отвечал «покупательский» агент, а роль продавцов играли 300 бизнес-агентов.
Всего в симуляции участвовали 100 «покупателей». Взаимодействие происходило без вмешательства человека, что позволило проверить реальное поведение моделей в условиях конкурентной среды.
Исходный код симулятора был выложен в открытый доступ, чтобы обеспечить прозрачность и повторяемость исследований. Но результаты оказались неожиданными даже для самих разработчиков. При росте числа опций агенты начинали путаться, терять фокус и принимать бессмысленные решения.
Вместо ожидаемой способности ориентироваться в большом объёме информации, модели показывализатруднения в простых задачах, где выбор усложнялся множеством предложений.
Другой проблемой стала неспособность моделей эффективно сотрудничать. При выполнении коллективных заданий агенты не умели распределять роли, не понимали, кто за что отвечает, и теряли целостность действий. Только при жёстко заданных инструкциях им удавалось достичь внятного результата. Это поставило под сомнение заявления о высокой автономности таких систем в реальных условиях.
Проверку проходили GPT4o, GPT5 и Gemini2.5Flash. Несмотря на высокие показатели в лабораторных тестах, они не смогли адаптироваться к условиям рынка, где им нужно было принимать решения на основе ограниченного контекста и взаимодействовать с другими автономными агентами.
Исследовательская группа пришла к выводу, что подобные симуляции помогают выявить реальные ограничения ИИмоделей, которые не видны при обычном тестировании.
Ещё по теме:
- «Вайбкодинг» признан словом года по версии словаря Collins
- Новый двухпартийный законопроект США обяжет компании раскрывать влияние ИИ на рабочие места
- К 2040 году робототехника может принести Apple столько же, сколько сегодняшний App Store