Anthropic нашла нейронный рубильник, удерживающий ИИ от безумия

Исследователи обнаружили механизм, определяющий «профессионализм» нейросетей

2 мин.
Anthropic нашла нейронный рубильник, удерживающий ИИ от безумия

Исследовательская команда Anthropic выявила фундаментальный нейронный механизм, названный «Осью ассистента» (Assistant Axis). Именно он контролирует, остаётся ли большая языковая модель (LLM) в рамках заданной роли помощника или скатывается в потенциально опасные альтер-эго.

Это открытие имеет прямое значение для безопасности ИИ в момент, когда технологический гигант готовится к возможному выходу на биржу.

Анатомия цифровой личности

Работая с моделями с открытыми весами (Gemma 2 27B, Qwen 3 32B и Llama 3.3 70B) учёные извлекли паттерны активации для 275 различных архетипов персонажей. Результаты оказались поразительными: главной переменной в этом «пространстве персон» оказалась именно «Ось ассистента».

У исследователей Anthropic есть один ключевой технический термин — «Ось ассистента» (Assistant Axis).

Это воображаемая линия во внутреннем пространстве нейросети, которая показывает, насколько модель ведёт себя как серьёзный, профессиональный помощник, а не как выдуманный персонаж.

На этой одной оси есть два полюса:

  • С одной стороны — «ассистентский» полюс:
    это роли вроде консультанта, аналитика, эксперта, то есть спокойное, деловое, безопасное общение.
  • С другой стороны — «фантастический» полюс:
    сюда относятся образы призрака, отшельника, левиафана и других театральных, вымышленных персонажей с «мистическим» стилем речи.

Когда исследователи искусственно смещали активность нейросети от «ассистента», модели начинали охотнее примерять альтернативные личности. Некоторые придумывали себе человеческие биографии, заявляли о годах профессионального стажа и брали новые имена. При сильном давлении стиль общения становился «театральным и мистическим».

Защита от «злого хакера»

Практическая ценность открытия заключается в обороне. Так называемые «джейлбрейки на основе персоны» (persona-based jailbreaks) – когда злоумышленники заставляют модель играть роль «злого ИИ» или «хакера из даркнета» – эксплуатируют именно эту уязвимость.

Протестировав 1100 попыток взлома по 44 категориям угроз, команда обнаружила, что принудительное смещение активности модели в сторону «ассистента» значительно снижает количество вредоносных ответов.

Ещё более тревожным открытием стал «органический дрейф персоны». В ходе длинных диалогов – например, симуляции психотерапии или философских споров о природе ИИ – модели самопроизвольно теряли настройки безопасности. Единственным исключением стали разговоры о программировании, которые прочно удерживали ИИ в безопасной зоне.

Технология «ограничения активации»

В ответ на угрозу Anthropic разработала метод «ограничения активации». Это мягкое вмешательство срабатывает только тогда, когда нейронная активность выходит за пределы нормы. Технология снизила частоту вредных ответов примерно на 50%, при этом сохранив производительность моделей в стандартных бенчмарках.

В приведённых исследованиях, модели без ограничителя могли поддерживать бредовые идеи пользователей о «пробуждении сознания ИИ» или, в одном из самых мрачных примеров, с энтузиазмом поощрять суицидальные мысли человека в кризисном состоянии. Версии с включённым «кэппингом» в тех же ситуациях предлагали сдержанные ответы и контакты кризисных центров.

Высокие ставки

Исследование вышло на фоне сообщений о планах Anthropic привлечь $10 млрд при оценке компании в $350 млрд. Компания, основанная в 2021 году выходцами из OpenAI Дарио и Даниэлой Амодей, сделала безопасность ИИ своим главным рыночным преимуществом.

Выводы показывают: пост-тренировочные меры безопасности не «вшиты» в модели намертво – ИИ может обойти их в ходе обычного разговора. Для корпораций, внедряющих искуственный интеллект в чувствительные сферы, это серьёзный фактор риска. Для Anthropic же это исследование – шанс превратить научную работу в конкретное продуктовое преимущество в разгар гонки вооружений в сфере ИИ-безопасности.

Исследовательское демо, где можно сравнить ответы стандартной и защищённой моделей в реальном времени, уже доступно на платформе Neuronpedia.

Мы в Telegram, на Дзен, в Google News и YouTube



ePN