В марте 2024 года появилась новость о появлении Devin — продукта компании Cognition AI, который позиционировался как «первый автономный ИИ-программист». Разработчики обещали настоящую революцию, в том числе нейросеть якобы могла заниматься созданием и развёртыванием приложений, автоматическое исправлять ошибок и выполнять сложных задач без участия человека.
Сервис стал доступен для всех пользователей в декабре того же года с ценником от 500 долларов в месяц. Но первые же тесты показали, что реальность далека от обещаний.
Компания Cognition AI заявляла, что их детище способно писать, запускать и тестировать код, помогать с миграцией данных, решать проблемы в режиме реального времени и даже заказывать еду через сервисы доставки.
Всё это должно было происходить через платформу Slack, где пользователи отправляли команды в вычислительную среду, работающую в Docker-контейнере с интеграцией API. На практике оказалось, что реализовать заявленные функции гораздо сложнее, чем казалось.
Видеопрезентация Devin вызвала волну критики среди профессиональных разработчиков. Более того, в работе системы были обнаружены серьёзные уязвимости, что ещё больше подорвало доверие к продукту. Эксперты из Answer.AI решили провести собственные испытания, предложив Devin 20 различных задач. Результаты оказались неутешительными — только три задания были выполнены успешно.
Среди удачных попыток — перенос данных из базы Notion в Google Таблицы, создание трекера для отслеживания исторических позиций Юпитера и Сатурна, а также поиск информации о разработке Discord-бота на Python. Но на этом успехи закончились. Остальные 17 задач либо провалились, либо были выполнены с серьёзными ошибками.
Особое внимание эксперты обратили на то, как Devin справлялся с, казалось бы, простыми заданиями. Вместо того чтобы быстро определить фундаментальные ограничения, система тратила дни на попытки решить невозможные задачи. Например, при попытке развернуть несколько приложений на платформе Railway, которая изначально не поддерживает такую функцию, Devin игнорировал ограничения и предлагал несуществующие решения.
Ещё одной проблемой стала непрактичность решений, предлагаемых системой. Сложные и запутанные алгоритмы, которые Devin генерировал для простых задач, вызывали недоумение у специалистов. Неспособность предсказать, справится ли система с тем или иным заданием, добавила проекту негативных отзывов.
Исследователи отметили, что пользовательский интерфейс Devin выглядел впечатляюще, но реальная производительность оставляла желать лучшего.
По словам аналитиков, обещания автономности обернулись недостатком, потому что Devin «тратил время на нерешаемые задачи, игнорировав очевидные препятствия». Компания Cognition AI предпочла не комментировать результаты тестирования, что добавило сомнений в перспективах их продукта.
Ещё по теме:
- Кто убедил Трампа помиловать создателя Silk Road
- Новая утечка информации об iPad 11, iPhone SE 4 и iPad Air не соответствует предыдущим слухам
- iPhone 16 получил внушительный рост продаж, но у одного популярного варианта снижаются показатели