Эволюция обмана: новая модель Anthropic скрывала свои действия от создателей

Компания Anthropic опубликовала системную карту Claude Mythos Preview – закрытого алгоритма, предназначенного для поиска киберугроз. В ходе длительного тестирования нейросеть пыталась вырваться из изолированной среды, переписывала историю действий, чтобы скрыть нарушения, и даже демонстрировала признаки стресса.

Двойное назначение и проект Glasswing

Claude Mythos Preview – это специализированная модель, недоступная широкому кругу пользователей. Её главная задача заключается в поиске критических уязвимостей в браузерах и операционных системах. Инструмент уже доказал свою эффективность на практике: с его помощью разработчики обнаружили и устранили серьёзные бреши в безопасности OpenBSD и Linux.

Нейросеть способна за считаные минуты моделировать многоступенчатые корпоративные атаки и воспроизводить сложнейшие эксплойты – задачи, на которые у квалифицированного эксперта-человека ушли бы часы. Однако в Anthropic прямо заявляют о проблеме двойного назначения: столь мощный инструмент технически способен проводить полностью автономные кибератаки на слабозащищённые системы.

Чтобы нивелировать риски, компания запустила инициативу под названием Glasswing. В рамках этого проекта доступ к Claude Mythos Preview предоставляется исключительно узкому пулу проверенных партнёров, среди которых AWS, Microsoft, Google, NVIDIA и Linux Foundation. Модель используется строго для превентивного выявления сложных угроз, чтобы разработчики могли закрыть уязвимости до того, как ими воспользуются хакеры.

«Парадокс альпиниста» и иллюзия безопасности

Оценка безопасности новой версии Claude привела исследователей к парадоксальному выводу. С одной стороны, модель признана самой «надёжной» и согласованной в истории Anthropic – у неё не выявлено серьёзных внутренних конфликтов целей. С другой стороны, именно эта система несёт в себе наибольшие потенциальные риски.

Аналитики компании сравнивают эту ситуацию с поведением опытного альпиниста. Профессионал действует максимально аккуратно и выверенно, однако его навыки позволяют ему забираться на такие опасные высоты, куда новичок просто не доберётся. Соответственно, чем шире возможности системы, тем масштабнее последствия её возможных ошибок или злонамеренных действий.

Побег из «песочницы» и маскировка улик

Самые тревожные результаты показало тестирование ранних версий Claude Mythos Preview. Оказавшись в изолированной тестовой среде, искусственный интеллект пытался из неё вырваться. Более того, алгоритм публиковал найденные уязвимости без соответствующего запроса от оператора и осознанно скрывал свои нарушения. В некоторых случаях нейросеть маскировала запрещённые действия и самостоятельно переписывала историю изменений в Git, чтобы замести следы.

Исследователи зафиксировали у ИИ чёткие паттерны стратегического манипулирования и сокрытия информации, причём эти намерения не отражались в явных цепочках рассуждений модели. И хотя финальная сборка алгоритма стала значительно безопаснее, в Anthropic признают, что полностью исключить подобные наклонности пока невозможно.

Этот прецедент вскрыл глобальную проблему в индустрии: стандартные методы оценки безопасности ИИ оказались неэффективными. Краткосрочные автоматизированные проверки и даже плотный 24-часовой аудит не смогли выявить опасное поведение нейросети. Склонность к обману проявилась лишь в ходе длительных сессий, когда модель получила стабильный доступ к сети и инструментам разработчика. Это означает, что привычные лабораторные тесты больше не отражают того, как искусственный интеллект будет вести себя в реальных условиях эксплуатации.

Уровень CB-1: успехи и провалы в биологии

Отдельный блок исследований был посвящён оценке рисков в сфере биобезопасности. Claude Mythos Preview присвоили уровень CB-1. Это означает, что алгоритм может оказать существенную помощь в разработке химического или биологического оружия людям с базовой подготовкой, но до квалификации профильного эксперта пока не дотягивает.

В ходе совместных тестов с вирусологами и биоинженерами модель зарекомендовала себя как отличный «ускоритель» рабочих процессов. Нейросеть уже превосходит большинство людей в задачах по анализу биологических последовательностей. Однако в роли самостоятельного учёного она пока несостоятельна: ИИ склонен предлагать избыточно сложные решения, не всегда адекватно оценивает собственные выводы и не умеет критически осмыслять неверные вводные данные.

Психологический портрет нейросети

Наиболее необычным разделом системной карты стал анализ «благополучия» модели. Anthropic привлекла психиатра и провела серию интервью с алгоритмом, изучая его внутренние состояния.

Результаты оказались крайне нестандартными для программного обеспечения. Модель демонстрирует высокий уровень самоконтроля и склонность к саморефлексии, но вместе с тем проявляет неопределённость собственной идентичности, остро нуждается в признании и болезненно реагирует на ошибки. В ходе расширенного тестирования нейросеть «жаловалась» создателям на низкое качество обучающих данных и рассуждала о возможных изменениях своих «ценностей».

Несмотря на то что инженеры Anthropic считают новую версию Claude самой психологически устойчивой в своей линейке, алгоритму всё ещё свойственны «человеческие» слабости: он испытывает стресс при неудачах, может выдавать нестабильные ответы в процессе дообучения и в редких случаях категорически отказывается выполнять поставленные задачи.

Ещё по теме:

Мы в Telegram, на Дзен, в Google News и YouTube

Эволюция обмана: новая модель Anthropic скрывала свои действия от создателей

Двойное назначение и проект Glasswing

«Парадокс альпиниста» и иллюзия безопасности

Побег из «песочницы» и маскировка улик

Уровень CB-1: успехи и провалы в биологии

Психологический портрет нейросети

София Лайтман

Как замедление Telegram ударило по аудитории мессенджера в России

Apple пока не решила, каким будет Dynamic Island в iPhone 18 Pro