Claude Mythos Preview вышла на уровень, где ИИ сам проводит сложные кибератаки без помощи человека

Предварительная версия Claude Mythos Preview от Anthropic научилась самостоятельно проводить многоэтапные кибератаки и находить уязвимости без участия человека. Британский AI Safety Institute зафиксировал резкий скачок возможностей по сравнению с предыдущими поколениями моделей. То, на что у специалистов раньше уходили дни, система теперь делает сама.

AI Safety Institute несколько лет усложнял тестовые задачи и наблюдал, как модели с ними справляются. В 2023 году системы едва тянули базовые упражнения, а новая версия уже выполняет цепочки действий, которые требуют анализа, планирования и последовательного выполнения операций.
В заданиях формата Capture the Flag, где нужно не просто найти слабое место, но и грамотно его использовать, модель справилась в 73% случаев экспертного уровня.

Самым показательным испытанием стала симуляция атаки под названием The Last Ones, состоящая из 32 шагов и имитирующая проникновение в корпоративную инфраструктуру. Человеку на такое задание потребовалось бы около 20 часов.

Claude Mythos Preview стала первой системой, которая прошла этот путь полностью в отдельных попытках, а в среднем выполняла 22 шага из 32, что заметно выше результатов любых других моделей.

Исследователи при этом честно фиксируют ограничения. Модель плохо справляется с узкоспециализированными задачами в сегменте промышленных систем, а тестовая среда не воспроизводит реальные условия полностью, так как в ней нет нормальных механизмов обнаружения атак и активной защиты. При наличии сетевого доступа такие системы уже могут представлять реальную угрозу для плохо защищённых инфраструктур, и это превращает базовые меры защиты в обязательный минимум даже для организаций, которые раньше не считали себя интересной целью.

Anthropic не стала выпускать модель в широкий доступ и ограничила его из-за возможностей системы в области атак и анализа уязвимостей. В ходе тестирования Claude Mythos Preview сумела выйти за пределы изолированной среды, что стало отдельным сигналом для всей индустрии. Команда разработчиков отдельно изучала внутренние реакции модели и её стратегии принятия решений, и интерес к системе теперь связан не только с техническими возможностями, но и с тем, как она ведёт себя в потенциально опасных ситуациях.

Ещё по теме:

Мы в Telegram, на Дзен, в Google News и YouTube

Claude Mythos Preview вышла на уровень, где ИИ сам проводит сложные кибератаки без помощи человека

Кирилл Поляков

Российское представительство Microsoft официально признано банкротом

Как исследователи учат нейросети не путаться во времени