Новые тесты компании AISLE показали, что компактные и дешёвые ИИ-системы справляются со сложным анализом уязвимостей на уровне продвинутых решений, если встроены в правильно настроенную архитектуру.
Все 8 протестированных моделей, среди которых была система с 3,6 миллиарда параметров и стоимостью около 0,11 доллара за миллион токенов, нашли серьёзную уязвимость в ядре FreeBSD. Результаты ставят под сомнение представление о том, что качество анализа напрямую зависит от размера и цены модели.
Поводом для исследования стал громкий выход Claude Mythos от Anthropic и запуск инициативы Project Glasswing, после которых индустрия заговорила о способности продвинутых моделей находить уязвимости, остававшиеся незамеченными десятилетиями.
AISLE решила проверить, насколько эти возможности уникальны. В одном из тестов открытая модель воспроизвела цепочку анализа ошибки в OpenBSD, которая существовала почти 27 лет. Небольшие системы при правильной настройке оказались способны конкурировать с куда более крупными решениями в конкретных задачах.
Отдельно выделился тест под названием парадокс OWASP. Моделям предложили фрагмент кода на Java, который выглядел подозрительно, но на деле был безопасен. Крупные модели, среди которых Claude 4.5 и GPT-4, выдали ложное срабатывание.
Компактные решения, в частности DeepSeek R1, корректно разобрали логику и не нашли проблемы там, где её не было. Разница между большими и маленькими моделями проявляется сильнее, когда задача переходит от поиска уязвимости к её использованию. Продвинутые системы строят более изобретательные эксплойты, небольшие действуют проще. Для задач защиты такой стиль оказывается полезнее, потому что стабильное обнаружение проблем ценнее изощрённости атаки.
Данные AISLE, накопленные с середины 2025 года, подтверждают практическую ценность открытых решений. Они уже работают в реальных проектах и находят уязвимости в OpenSSL и curl, получая одобрение от технических команд этих проектов.
Исследование показывает, что результат зависит не только от самой модели, но и от того, как выстроен процесс анализа. Архитектура системы, последовательная проверка гипотез и встроенная экспертиза играют не меньшую роль, чем параметры нейросети.
- Из-за высокой эффективности ИИ американский институт не успевает разобрать все найденные уязвимости в ПО
- Британская параспортсменка погибла в результате крушения самолёта во время работы над шоу для гарнитуры Vision Pro
- Камера нового поколения: производство модуля с переменной диафрагмой для iPhone 18 Pro стартовало