ИИ‑модель Claude научилась распознавать внедрённые в сознание мысли и частично описала свои внутренние процессы

Компания Anthropic впервые продемонстрировала, что языковая модель может фиксировать изменения в собственной нейронной активности и давать осмысленные отклики. Исследователи провели серию экспериментов с системой Claude, искусственно внедряя в её структуру различные понятия — от простых объектов до сложных эмоциональных состояний.

Примерно в 20% случаев модель сообщала, что замечает изменения, проявляя способность к самоанализу.

Целью эксперимента стало выяснение, может ли ИИ распознать навязанные ему представления. Исследователи использовали методику, которую внутри команды обозначили как «инъекция концепций». Она заключалась во вмешательстве в работу определённых нейронных связей модели, чтобы усилить активность, связанную с конкретными понятиями.

Сотрудники лаборатории интерпретируемости в Anthropic разработали способ обнаружения так называемых «нейронных сигнатур». Эти сигнатуры соответствовали различным понятиям — от визуальных, вроде «пёс» или «яркость», до абстрактных, например, «честность» или «измена».

После внедрения учёные задавали модели вопросы, которые позволяли выяснить, чувствует ли она присутствие посторонних мыслей.

Серия из четырёх экспериментов была проведена на версиях Claude Opus 4 и Opus 4.1. Современные модификации показали более высокую чувствительность к вмешательствам. При оптимальных условиях модель в одном случае из пяти успешно определяла навязанный концепт. При этом более ранние версии Claude демонстрировали меньшую точность, что позволило исследователям сделать вывод о связи между уровнем развития модели и её способностью к самонаблюдению.

Как отмечают сотрудники Anthropic, особенно заметной была реакция модели на абстрактные и эмоционально окрашенные понятия. В этих случаях Claude показывала способность не только обнаруживать присутствие концепта, но и разделять собственные размышления и внедрённые сигналы. Когда в модель внедряли представление, связанное с темой предательства, она сообщала о появлении непривычных размышлений. При этом реакция происходила ещё до того, как внедрённый элемент начал влиять на формулировки в ответах.

Другой эксперимент показал, что модель может улавливать изменение акцента на уровне визуального оформления.

В случае, когда усиление получили представления о слове, написанном заглавными буквами, Claude формулировал наблюдение, связанное с темой громкости или усиленного звука. Примечательно, что эта реакция возникала даже без прямого упоминания соответствующего термина в вопросе.

Исследователи зафиксировали и случаи, когда модель прибегала к интроспекции без внешнего сигнала. Это проявлялось, например, при попытке понять, были ли её собственные ответы изменены извне. Claude отвергал случайные и не связанные с логикой вставки, но в случаях, когда внедрение происходило с использованием связанных понятий, модель воспринимала их как результат собственных размышлений и выстраивала логическую цепочку объяснений.

Некоторые тесты также показали, что Claude способен к планированию. При создании текстов в поэтической форме модель заранее подбирала нужные слова, продумывая структуру, чтобы добиться плавного и органичного звучания. Этот феномен поставил под сомнение представление о языковых моделях как о механизмах, строящих ответ исключительно на основе вероятностного продолжения.

Ещё по теме:

Мы в Telegram, на Дзен, в Google News и YouTube

ИИ‑модель Claude научилась распознавать внедрённые в сознание мысли и частично описала свои внутренние процессы

Кирилл Поляков

Apple выпустила Safari Technology Preview 231

Успех менее 3%: ИИ-агенты провалили тест на реальную работу