Claude Mythos Preview вышла на уровень, где ИИ сам проводит сложные кибератаки без помощи человека

Anthropic не стала выпускать модель в широкий доступ

1 мин.
Claude Mythos Preview вышла на уровень, где ИИ сам проводит сложные кибератаки без помощи человека

Предварительная версия Claude Mythos Preview от Anthropic научилась самостоятельно проводить многоэтапные кибератаки и находить уязвимости без участия человека. Британский AI Safety Institute зафиксировал резкий скачок возможностей по сравнению с предыдущими поколениями моделей. То, на что у специалистов раньше уходили дни, система теперь делает сама.

AI Safety Institute несколько лет усложнял тестовые задачи и наблюдал, как модели с ними справляются. В 2023 году системы едва тянули базовые упражнения, а новая версия уже выполняет цепочки действий, которые требуют анализа, планирования и последовательного выполнения операций.
В заданиях формата Capture the Flag, где нужно не просто найти слабое место, но и грамотно его использовать, модель справилась в 73% случаев экспертного уровня.

Самым показательным испытанием стала симуляция атаки под названием The Last Ones, состоящая из 32 шагов и имитирующая проникновение в корпоративную инфраструктуру. Человеку на такое задание потребовалось бы около 20 часов.

Claude Mythos Preview стала первой системой, которая прошла этот путь полностью в отдельных попытках, а в среднем выполняла 22 шага из 32, что заметно выше результатов любых других моделей.

Исследователи при этом честно фиксируют ограничения. Модель плохо справляется с узкоспециализированными задачами в сегменте промышленных систем, а тестовая среда не воспроизводит реальные условия полностью, так как в ней нет нормальных механизмов обнаружения атак и активной защиты. При наличии сетевого доступа такие системы уже могут представлять реальную угрозу для плохо защищённых инфраструктур, и это превращает базовые меры защиты в обязательный минимум даже для организаций, которые раньше не считали себя интересной целью.

Anthropic не стала выпускать модель в широкий доступ и ограничила его из-за возможностей системы в области атак и анализа уязвимостей. В ходе тестирования Claude Mythos Preview сумела выйти за пределы изолированной среды, что стало отдельным сигналом для всей индустрии. Команда разработчиков отдельно изучала внутренние реакции модели и её стратегии принятия решений, и интерес к системе теперь связан не только с техническими возможностями, но и с тем, как она ведёт себя в потенциально опасных ситуациях.

Мы в Telegram, на Дзен, в Google News и YouTube



ePN