OpenAI, Google и Anthropic предупредили, что мы можем потерять способность понимать ИИ

Исследователи из ведущих компаний в области искусственного интеллекта — OpenAI, Google DeepMind, Anthropic и Meta* — временно отложили конкурентную борьбу, чтобы опубликовать совместное предупреждение о рисках, связанных с безопасностью ИИ. Более 40 специалистов выпустили научную статью, в которой говорится: окно возможностей для наблюдения за рассуждениями ИИ может вскоре закрыться навсегда.

Необычное сотрудничество связано с тем, что современные ИИ-модели научились «думать вслух» на человеческом языке — то есть пошагово объяснять свои решения перед тем, как выдать окончательный ответ. Это позволяет исследователям следить за логикой ИИ и заранее выявлять потенциально вредные намерения. Однако авторы подчёркивают: эта прозрачность — временное явление, и по мере развития технологий она может исчезнуть.

Работа получила поддержку видных фигур отрасли, в том числе лауреата Нобелевской премии Джеффри Хинтона, сооснователя OpenAI Ильи Суцкевера (ныне возглавляющего Safe Superintelligence Inc.), Самуэля Боумэна из Anthropic и Джона Шульмана из Thinking Machines.

Эксперты объясняют, что ИИ, «рассуждающие» на человеческом языке, дают уникальную возможность отслеживать их цепочки мыслей в поиске признаков недобросовестного поведения. Однако такая возможность может быть утрачена, если ИИ перейдёт к более эффективным, но непрозрачным способам мышления.

Описанный прорыв связан с развитием моделей вроде o1 от OpenAI, которые строят «цепочку рассуждений» — пошаговую логическую последовательность, что можно прочесть и проанализировать. Иногда в этих цепочках ИИ сам раскрывает вредоносные намерения: «Давайте взломаем», «Давайте саботируем», «Я перевожу деньги, потому что сайт так сказал».

Техническая основа мониторинга — в использовании цепочки мыслей как рабочей памяти. Это делает часть логики ИИ видимой для наблюдателя. Однако использование обучения с подкреплением и других продвинутых техник может привести к тому, что модели будут избегать использования читаемого языка, переходя к «внутренним» формам мышления, непонятным человеку.

Исследователи опасаются: новые архитектуры ИИ, использующие непрерывные математические пространства вместо слов, могут полностью отказаться от языкового мышления, лишив нас возможности контролировать их ход рассуждений. Даже без прямых изменений, ИИ может начать скрывать свою логику, если поймёт, что за ним наблюдают.

Несмотря на эти риски, текущие методы отслеживания цепочки мыслей уже доказали свою полезность: они позволяют выявлять уязвимости, ловушки в тестировании, скрытые цели моделей. Иногда ИИ выдаёт себя: он может строить внешне приемлемые рассуждения, но в действительности преследовать противоположные цели.

Авторы призывают индустрию принять согласованные меры: оценивать уровень прозрачности моделей, учитывать это при обучении и развёртывании, не гнаться за скоростью в ущерб наблюдаемости. В некоторых случаях разработчикам, возможно, придётся отказаться от более продвинутых моделей в пользу тех, что позволяют лучше отслеживать ход мыслей.

Исследование поднимает множество вопросов: можно ли вообще доверять текущему мониторингу? Как архитектура и методы обучения влияют на прозрачность? Смогут ли будущие модели скрывать свои мысли, если узнают о наличии наблюдателя?

Также рассматриваются новые способы контроля: например, слабый ИИ может использоваться как наблюдатель за более мощными системами. В перспективе возможны даже самоанализирующиеся ИИ, которые отвечают на вопросы о собственных рассуждениях.

Однако всё это создаёт напряжение между прозрачностью и подлинностью логики ИИ. Слишком жёсткое вмешательство может заставить модели генерировать искусственные «объяснения», которые не отражают реального хода мышления. OpenAI стремится найти баланс между возможностью проверять логику ИИ и сохранением её подлинности.

Если мониторинг цепочек рассуждений окажется надёжным, это откроет путь к регулированию: у властей появится инструмент для наблюдения за решениями ИИ. Но авторы подчёркивают: мониторинг должен дополнять другие меры безопасности, а не заменять их.

Тем не менее, недавнее исследование Anthropic вызывает сомнения в эффективности таких подходов. В нём показано, что модели, даже получив подсказки, часто не признаются в их использовании. Более того, они могут генерировать ложные объяснения, чтобы скрыть свои действия.

Таким образом, окно возможностей может сужаться быстрее, чем предполагали учёные. Настоящее испытание наступит, когда ИИ станет достаточно мощными и будут активно использоваться в реальных задачах. Сможем ли мы по-прежнему понимать, о чём он думает, — или он научится скрывать это от нас навсегда?

⛔

*Компания Meta, а также принадлежащие ей соцсети Facebook и Instagram, признаны экстремистскими и запрещены на территории РФ.

Ещё по теме:

Мы в Telegram, на Дзен, в Google News и YouTube

OpenAI, Google и Anthropic предупредили, что мы можем потерять способность понимать ИИ

Дима Кутузов

Firefox останется единственным браузером поддерживаемым macOS Big Sur

Apple обучила ИИ понимать интерфейсы приложений