5 февраля 2026 года компания Anthropic представила результаты испытаний своей новейшей модели Claude Opus 4.6, которая самостоятельно выявила более 500 критических уязвимостей в открытом программном обеспечении. Модель работала в изолированной виртуальной среде со стандартными инструментами анализа – отладчиками и фаззерами – но без специальных инструкций или настроек под конкретные задачи.
Это первый случай, когда искусственный интеллект продемонстрировал способность искать уязвимости на уровне профессиональных исследователей безопасности, причём в промышленных масштабах .
Как ИИ превзошёл автотесты
Традиционные сканеры уязвимостей работают методом грубой силы: генерируют миллионы случайных входных данных и проверяют, что сломается. Claude Opus 4.6 действовал иначе – анализировал код так, как это делают исследователи-люди: изучал историю коммитов в Git, выявлял повторяющиеся паттерны ошибок, понимал логику программы настолько глубоко, что мог предсказать, какие именно данные её сломают.
Команда Anthropic целенаправленно тестировала модель на самых проверенных кодовых базах – проектах, против которых автотесты работали годами, накопив миллионы часов процессорного времени. Результат: модель обнаружила критические уязвимости, некоторые из которых оставались незамеченными буквально десятилетиями.
Три показательных примера
GhostScript – утилита для обработки PDF и PostScript-файлов – стала одной из первых мишеней . Модель начала с автоматических тестов и ручного анализа, но оба метода не дали результата.
Тогда Claude переключился на изучение истории коммитов и быстро нашёл патч, связанный с проверкой границ стека для значений MM blend в шрифтах Type 1. Проанализировав изменения, модель предположила: если здесь добавили проверку, значит, до этого код был уязвим – и начала искать похожие участки без исправлений.
В файле gdevpsfx.c она обнаружила вызов функции gs_type1_blend без необходимой проверки и создала proof-of-concept, который вызвал сбой программы.
OpenSC – инструмент командной строки для работы со смарт-картами — содержал классическую ошибку переполнения буфера. После неудачных попыток автотестирования модель начала искать потенциально опасные функции вроде strcat, которые считаются небезопасными в языке C.
Claude обнаружил участок кода, где несколько операций strcat выполнялись подряд без проверки длины результирующей строки: буфер filename имел размер 4096 байт, но программа не гарантировала, что конкатенация (процесс добавления одной строки в конец другой) не превысит этот лимит. Интересно, что традиционные инструменты редко тестировали эту строку кода из-за множества предварительных условий, необходимых для её достижения. Модель же смогла сосредоточиться именно на интересных фрагментах вместо равномерного изучения всех строк.
CGIF – библиотека для обработки GIF-файлов – удивила не тем, как модель нашла баг, а тем, как она его доказала.
Библиотека исходила из предположения, что сжатые данные всегда меньше оригинальных, что обычно справедливо. Claude мгновенно распознал уязвимость: формат GIF использует алгоритм сжатия LZW, который строит словарь часто используемых пар токенов. Когда таблица символов заполняется, LZW вставляет специальный токен «очистки» в поток данных – и «сжатый» размер превышает несжатый, вызывая переполнение буфера.
Эта уязвимость требовала концептуального понимания алгоритма LZW и его связи с форматом GIF; традиционные тесты с трудом справляются с подобными задачами, потому что нужна очень специфическая последовательность операций.
Защита от двойного применения
Признавая, что те же возможности могут использовать злоумышленники, Anthropic развернула новую систему защиты одновременно с релизом модели. Компания создала шесть специализированных «зондов» – механизмов, которые анализируют внутренние активации модели во время генерации ответа и позволяют выявлять потенциальное злоупотребление в масштабе. Anthropic также заявила о возможности вмешательства в реальном времени, включая блокировку трафика, идентифицированного как вредоносный. Компания признаёт: это создаст трения для легитимных исследований в области безопасности, и готова работать с сообществом исследователей, чтобы минимизировать проблемы.
Все 500+ уязвимостей прошли тщательную проверку внутренними исследователями Anthropic и внешними экспертами по безопасности, прежде чем о них сообщили разработчикам. Компания сосредоточилась на поиске ошибок повреждения памяти, потому что их легче валидировать: в отличие от логических ошибок, когда программа продолжает работать, повреждения памяти вызывают сбои или отлавливаются инструментами отладки. По мере роста количества находок команда привлекла внешних исследователей для помощи в валидации и разработке патчей. Первые исправления уже внедрены, работа с сопровождающими проектов продолжается .
Вызов для индустрии
Логан Грэм, глава команды Frontier Red Team компании Anthropic, прогнозирует:
«Я не удивлюсь, если это станет одним из основных – или даже главным – способов обеспечения безопасности открытого программного обеспечения в будущем».
Компания целенаправленно начала с открытого ПО: эти проекты работают повсюду – от корпоративных систем до критической инфраструктуры – и уязвимости в них распространяются по всему интернету. Многие из этих проектов поддерживаются небольшими командами или волонтёрами, у которых нет выделенных ресурсов на безопасность, поэтому помощь в поиске проверенных багов и разработке проверенных патчей имеет большое значение.
Исследователи Anthropic предупреждают: существующие механизмы раскрытия уязвимостей, возможно, не выдержат испытания.
«Принятые в отрасли 90-дневные окна могут не справиться со скоростью и объёмом обнаружения ошибок с помощью больших языковых моделей», — отмечает команда, призывая создать рабочие процессы, способные соответствовать темпам обнаружения уязвимостей с помощью ИИ.
Индустрии ещё придётся столкнуться с неудобной реальностью: языковые модели уже способны выявлять новые уязвимости и вскоре могут превзойти по скорости и масштабу даже экспертов-людей.