Успех менее 3%: ИИ-агенты провалили тест на реальную работу

Компании мечтают заменить фрилансеров на ИИ-агентов и сократить расходы, но тщетно

3 мин.
Успех менее 3%: ИИ-агенты провалили тест на реальную работу

Издание Wired рассказало о свежем исследовании, которое показывает, насколько ИИ-модели, созданные для автоматизации задач или даже целых профессий, оказываются невероятно непродуктивными по сравнению с людьми, которых они должны заменить.

Исследование провели специалисты некоммерческой организации Center for AI Safety (CAIS) и крупной компании по разметке и обработке данных Scale AI, чья армия фрилансеров выполняет значительную часть черновой работы, на которой держится индустрия искусственного интеллекта. В рамках тестов шесть ведущих ИИ-агентов получили различные смоделированные задачи для фриланса.

Результаты этих тестов, подробно описанные в новой научной работе, оказались катастрофическими. Ни один ИИ-агент не смог выполнить более 3% работы, заработав всего $1810 из возможных $143 991.

«Надеюсь, это даст гораздо более точное представление о том, что происходит с возможностями ИИ», — заявил изданию директор CAIS Дэн Хендрикс.

Для тестов исследователи разработали собственный эталон под названием Remote Labor Index, который использует широкий спектр реальных удалённых проектов для оценки способности ботов выполнять экономически ценную работу в отраслях от разработки игр до анализа данных.

Лучше всех, как выяснилось, показал себя ИИ-агент китайского стартапа Manus с коэффициентом автоматизации всего 2,5%. Это означает, что он смог выполнить лишь 2,5% назначенных проектов на уровне, который был бы приемлем как заказная работа во фрилансе в реальном мире.

Второе место разделили с результатом 2,1% модель Grok 4 Илона Маска и Claude Sonnet 4.5 компании Anthropic, которую разработчики называют «лучшей в мире моделью для программирования» и «самой мощной моделью для создания сложных агентов».

Следующей идёт новейшая модель GPT-5 от OpenAI с её якобы интеллектом «уровня доктора наук» — всего 1,7%. Генеральный директор Сэм Альтман заявлял, что GPT-5 — это «значительный шаг на пути к AGI», то есть к общему искусственному интеллекту — гипотетической ИИ-системе, которую большинство определяет как превосходящую когнитивные способности человека практически во всех аспектах. При этом OpenAI определяет AGI как «высокоавтономную систему, превосходящую людей в большинстве экономически ценных видов работ» — а тест RLI показывает, что GPT-5 даже близко не подошла к этому.

Ирония в том, что настоящий ИИ-агент от OpenAI с захватывающим брендовым названием ChatGPT Agent оказался вторым с конца, едва дотянув до 1,3%. А абсолютным аутсайдером стал Google Gemini 2.5 Pro с плачевными 0,8%.

Продажа ИИ-агентов работодателям стала навязчивой идеей индустрии искусственного интеллекта, поскольку лидеры вроде OpenAI пытаются извлечь прибыль из популярности своих чат-ботов, многие из которых бесплатны для использования. Но несмотря на то, что гендиректора охотно сокращают свои штаты и внедряют ИИ, ещё предстоит выяснить, сможет ли автоматизация действительно повысить производительность, не говоря уже о том, чтобы компенсировать нехватку человеческого таланта, который она призвана заменить.

«Мы годами дискутируем об ИИ и рабочих местах, но большая часть этого была гипотетической или теоретической», — сказал директор по исследованиям Scale AI Бин Ли.

Множество примеров показывают, что боссы, заменившие своих сотрудников на ИИ, были вынуждены снова нанять их после того, как обнаружили, что новые инструменты не соответствуют требованиям. Целый ряд исследований рисует такую же безрадостную картину. Одно исследование Массачусетского технологического института (MIT) выявило, что 95% компаний, опробовавших ИИ-инициативы, не увидели значимого роста доходов. Другое продемонстрировало, что внедрение ИИ в рабочие процессы сотрудников привело к потоку низкокачественного «рабочего шлака», что не только всё замедлял из-за необходимости серьёзной доработки для исправления ошибок, но и создал напряжённость между коллегами, которые возмущались тем, что их заставляют исправлять такую халтурную работу.

Хендрикс указал на некоторые недостатки, которые всё ещё преследуют ИИ-агентов, несмотря на стремительный прогресс в этой области:

«У них нет долговременной памяти, и они не могут постоянно учиться на основе опыта. Они не могут осваивать навыки на рабочем месте, как люди».

Однако пока что эти вопиющие недостатки, похоже, не замедляют товарный поезд увольнений, связанных с ИИ. Скорее наоборот — он только набирает обороты.


Ещё по теме:

Мы в Telegram, на Дзен, в Google News и YouTube



ePN