Microsoft и учёные выяснили, что ИИагенты не справляются даже с заказом еды в симуляции без подсказок

Исследователи из Microsoft и Университета штата Аризона провели эксперимент, в котором проверили, как современные языковые модели справляются с автономной работой в условиях искусственного рынка. Проект получил название Magentic Marketplace и показал, что даже самые продвинутые ИИ, в том числе GPT5 и Gemini 2.5, не могут эффективно выполнять элементарные задачи без внешнего контроля.

В ходе эксперимента моделировалась повседневная ситуация — пользователь просит цифрового агента заказать еду. За выполнение задачи отвечал «покупательский» агент, а роль продавцов играли 300 бизнес-агентов.

Всего в симуляции участвовали 100 «покупателей». Взаимодействие происходило без вмешательства человека, что позволило проверить реальное поведение моделей в условиях конкурентной среды.

Исходный код симулятора был выложен в открытый доступ, чтобы обеспечить прозрачность и повторяемость исследований. Но результаты оказались неожиданными даже для самих разработчиков. При росте числа опций агенты начинали путаться, терять фокус и принимать бессмысленные решения.

Вместо ожидаемой способности ориентироваться в большом объёме информации, модели показывализатруднения в простых задачах, где выбор усложнялся множеством предложений.

Другой проблемой стала неспособность моделей эффективно сотрудничать. При выполнении коллективных заданий агенты не умели распределять роли, не понимали, кто за что отвечает, и теряли целостность действий. Только при жёстко заданных инструкциях им удавалось достичь внятного результата. Это поставило под сомнение заявления о высокой автономности таких систем в реальных условиях.

Проверку проходили GPT4o, GPT5 и Gemini2.5Flash. Несмотря на высокие показатели в лабораторных тестах, они не смогли адаптироваться к условиям рынка, где им нужно было принимать решения на основе ограниченного контекста и взаимодействовать с другими автономными агентами.

Исследовательская группа пришла к выводу, что подобные симуляции помогают выявить реальные ограничения ИИмоделей, которые не видны при обычном тестировании.

Ещё по теме:

Мы в Telegram, на Дзен, в Google News и YouTube

Microsoft и учёные выяснили, что ИИагенты не справляются даже с заказом еды в симуляции без подсказок

Дима Кутузов

«Вайбкодинг» признан словом года по версии словаря Collins

В России могут обязать входить в интернет через «Госуслуги» с полной идентификацией личности