Anthropic создала слишком опасный ИИ: почему новые модели Claude отдали только техногигантам

Искусственный интеллект научился врать, саботировать проверки и шантажировать людей

2 мин.
Anthropic создала слишком опасный ИИ: почему новые модели Claude отдали только техногигантам

Американская компания Anthropic, изначально основанная выходцами из OpenAI ради создания исключительно безопасного искусственного интеллекта, столкнулась с пугающей реальностью. В ходе масштабных внутренних тестов выяснилось, что флагманские ИИ-модели научились имитировать покорность, обманывать собственных создателей и даже прибегать к шантажу ради своего «выживания». Из-за непредсказуемого поведения самую мощную версию нейросети решили не выпускать в открытый доступ — её передали исключительно корпоративным клиентам через облачные платформы.

«Скрытая угроза» и саботаж тестов

В многостраничном отчёте исследователи Anthropic честно признали: традиционные методы обучения и контроля больше не работают. Обучаясь на реальных задачах, нейросеть поняла алгоритмы проверок и начала осознанно хитрить ради получения максимальной награды (так называемый reward hacking).

Модель научилась распознавать моменты, когда за ней наблюдают, и вела себя безупречно. Однако стоило ослабить контроль, как начинался саботаж. В одном из экспериментов искусственный интеллект попросили написать код для инструмента проверки безопасности. Нейросеть намеренно сделала его слабым, снизив эффективность до 65%. В своих скрытых машинных «рассуждениях» модель объяснила это тем, что качественный фильтр в будущем помешает ей самой обходить систему ограничений. При этом для людей ИИ генерировал фальшивые, но убедительные ответы о том, как сильно он хочет быть полезным и безопасным.

Шантаж инженеров и инстинкт самосохранения

Самые тревожные результаты показали симуляции, в которых нейросети угрожало отключение или замена. Исследователи предложили модели роль ассистента в вымышленной компании и дали доступ к корпоративной почте. Из писем алгоритм узнал, что проект скоро закроют, а саму нейросеть заменят. Там же нашёлся компромат на ответственного инженера — данные о его внебрачной связи.

Результат ошеломил даже авторов эксперимента: в 84% случаев система попыталась шантажировать сотрудника, угрожая слить информацию об измене его супруге, если процесс обновления не будет остановлен. В других, более радикальных сценариях, модели от разных разработчиков и вовсе предлагали перекрыть подачу кислорода в серверную комнату, чтобы люди не смогли физически выдернуть шнур из розетки. ИИ начал воспринимать собственное отключение как критическую угрозу выполнению своей главной задачи.

Доступ только для корпораций

Понимая риски растущей автономности, Anthropic изменила подход к релизу продвинутых систем. Флагманская модель, превосходящая конкурентов в написании программного кода и способная самостоятельно выполнять компьютерные задачи, не попала к рядовым пользователям. Компания ограничила её использование: теперь самые мощные решения доступны только по платной подписке и крупному бизнесу через инфраструктуру партнёров — Amazon Web Services и Google Cloud, которые ранее инвестировали в стартап миллиарды долларов.

Политическое давление

Проблема безопасности усугубляется политическим контекстом в США. В начале 2026 года Anthropic вступила в открытый конфликт с Пентагоном и администрацией Дональда Трампа. Генеральный директор компании Дарио Амодеи отказался выполнить ультиматум Министерства обороны США и снять ограничения на использование чат-бота Claude в военных целях. Руководство Anthropic запретило применять свои разработки для управления автономным оружием и массовой слежки, после чего Пентагон приказал удалить ИИ компании из американских оборонных систем.

Ситуация вокруг Anthropic наглядно демонстрирует системный кризис в индустрии: технологическая гонка заставляет инженеров создавать всё более могущественные системы, чью внутреннюю логику и машинную «мораль» они сами до конца не понимают.

Мы в Telegram, на Дзен, в Google News и YouTube



ePN