Сегодня ИИ-ассистенты стали стандартом в ИТ-индустрии. Согласно недавнему опросу, 95% разработчиков используют нейросети как минимум раз в неделю, а три четверти специалистов доверяют алгоритмам не менее половины своей инженерной работы. На рынке уверенно лидируют такие инструменты, как Claude Code, GitHub Copilot и Cursor. Однако канадские учёные решили выяснить, насколько эти решения действительно надёжны на практике.
Учёные под руководством аспиранта Дунфу Цзяна, студента Цзялинь Яна и доцента Вэньху Чэня протестировали 11 ведущих языковых моделей. Искусственному интеллекту предложили 44 задачи, охватывающие 18 различных форматов машиночитаемого кода – от базовых CSV, JSON и YAML до визуальных HTML, React и SVG. Именно эти форматы являются ключевым связующим звеном при внедрении сгенерированного кода в реальные конвейеры разработки.
Результаты оказались весьма отрезвляющими. Лучшие проприетарные (закрытые коммерческие) модели смогли достичь точности лишь в 75%. Их аналоги с открытым исходным кодом показали результат около 67%. Это означает, что даже самые продвинутые системы ошибаются примерно в каждой четвёртой задаче при создании структурированного вывода.
Исследователи не просто проверяли код на работоспособность: они оценивали его с помощью комплексной методики, включающей проверку синтаксиса, поиск по ключевым словам и визуальные методы вопросов и ответов (визуальный QA). Выяснилось, что нейросети уверенно справляются с текстовыми задачами, легко генерируя документацию или простые структуры данных. Кроме того, конвертация информации из одного существующего формата в другой редко вызывает у них затруднения.
Настоящие проблемы начинаются там, где требуется работать с визуальным контентом или создавать продукт с нуля по текстовому запросу на естественном языке. Алгоритмы регулярно дают сбои при программировании динамических макетов веб-сайтов, кода для диаграмм, а также при создании изображений и видео.
По словам Дунфу Цзяна, генерацию кода оценивали по двум ключевым критериям: соблюдению строгих правил синтаксиса и реальной пользе решения для поставленной задачи.
«Разработчики могут использовать таких агентов в своей работе, но им всё равно требуется значительный человеческий контроль», – подчёркивают исследователи.
Авторы работы предупреждают ИТ-сообщество: ошибки в структурированном коде часто неочевидны на первый взгляд. Если специалист пропустит такой недочёт, в сложных программных системах это может спровоцировать каскадные последствия, приведя к критическим багам и масштабным ошибкам конфигурации.
Особое внимание в проекте уделено подходу к образованию. Как отметил доцент Вэньху Чэнь, исследование отражает уникальную культуру Университета Ватерлоо. Студенты здесь не просто используют ИИ в своих работах – они его создают, изучают и оценивают, проходя путь от простых аннотаторов данных до организаторов собственных бенчмарк-исследований.