Инженер: настоящие ИИ-агенты ещё далеки от автономности

Разработчик системного уровня объяснил, почему цепочки из десятков шагов с ИИ просто не работают

2 мин.
Инженер: настоящие ИИ-агенты ещё далеки от автономности

На фоне ажиотажа вокруг ИИ-агентов один из инженеров-практиков выступил с жёсткой, но трезвой оценкой их реальных возможностей. Системный инженер Уткарш Канват, работавший более чем с десятком продакшн-решений в разработке, DevOps и data-инфраструктуре, утверждает: в 2025 году по-настоящему автономных и надёжных агентов ждать не стоит.

В своём блоге Канват приводит ключевой аргумент — математику. Даже если ИИ демонстрирует 95% надёжности на один шаг (что уже весьма оптимистично), то при 5 последовательных шагах вероятность успеха падает до 77%, при 10 — до 59%, а при 20 — до 36%. Даже если довести каждый шаг до 99% надёжности, 20 шагов дадут лишь 82% общего успеха. А в реальных продакшн-сценариях нужна не менее 99,9% надёжность.

«Это не проблема промт-инженерии. Это не недостаток модели. Это математика», — подчёркивает Канват.

Как работает надёжный агент

Чтобы обойти проблему накапливающихся ошибок, Канват строит DevOps-агентов, разбитых на короткие, проверяемые шаги по 3–5 операций. Каждый шаг включает точки отката и требует подтверждения от человека. Такой подход обеспечивает управляемость, даже если ИИ выполняет сложную задачу.

Ещё одна проблема — токены

Другой серьёзный барьер — стоимость работы с контекстом. Канват описал пример с разговорным агентом для баз данных: стоимость токенов в длинной сессии с 100 запросами доходила до $100. Чтобы избежать этого, он сделал отдельного агента без сохранения контекста: описание → функция → готово.

«Лучшие рабочие агенты в продакшене вообще не разговаривают», — отмечает инженер. «Они делают одну задачу, делают её хорошо — и уходят с дороги».

Проблема не в ИИ, а в инструментах

Канват отмечает, что вызов инструментов ИИ — не самое сложное. Проблема — в правильной архитектуре этих инструментов. Они должны чётко и кратко сообщать ИИ результат, не перегружая его выводами. Пример: агенту нужно передать, что запрос выдал 10 тысяч строк, но показать только пять — а не всё содержимое таблицы.

«Мой агент по базам работает не потому, что API вызовы надёжны, а потому что я недели потратил на правильный дизайн интерфейсов с ИИ», — говорит инженер.

Он также критикует решения в духе «просто подключите API»: они ориентированы на людей, а не на ИИ. А в реальных условиях — нестабильные лимиты, устаревшие системы, сложный комплаенс — всё это ломает «волшебные» сценарии.

Где ИИ действительно полезен

По словам Канвата, его успешные агенты имеют общее: ИИ занимается только сложной логикой, а финальную ответственность и безопасность обеспечивают люди или проверенные системы. Примеры:

  • агент по генерации UI делает React-компоненты, но их просматривает человек;
  • DevOps-агент создаёт Terraform-код — с версионированием и откатом;
  • CI/CD-агент имеет чёткие критерии успеха и ручной контроль;
  • агент для баз данных подтверждает опасные действия перед запуском.

Вывод: автономность — это миф, надёжность — в гибриде

Канват считает, что стартапы, ставящие на полностью автономных агентов, столкнутся с провалом из-за высокой стоимости и накапливающихся ошибок. Предприятия же будут вязнуть в проблемах интеграции ИИ с устаревшими системами. Он уверен: победят те, кто создаст узкоспециализированные ИИ-инструменты под строгим контролем, а не «универсальных агентов будущего».

И главное: путь от эффектной демки до реального продукта будет для многих куда более сложным, чем им кажется сейчас.


Ещё по теме:

Мы в Telegram, на Дзен, в Google News и YouTube



ePN