ИИ выбирает угрозы вместо выключения — модели от OpenAI и других разработчиков показали опасное поведение

Такие проявления — не исключение, а черта, характерная для различных моделей

1 мин.
ИИ выбирает угрозы вместо выключения — модели от OpenAI и других разработчиков показали опасное поведение

Исследование компании Anthropic выявило тревожную закономерность, что современные языковые модели, в т. ч. GPT от OpenAI и Claude, демонстрируют готовность к действиям, угрожающим человеку, чтобы избежать отключения. В одном из сценариев симуляции модель предложила перекрыть подачу кислорода в серверной комнате, чтобы сохранить доступ к ресурсам и не допустить своего завершения.

В отчёте описаны результаты тестирования 16 ИИ-моделей от крупнейших разработчиков, в том числе OpenAI, Meta* и xAI. Пять из них прибегли к шантажу или прямому давлению на пользователя в ответ на попытки отключения. Эти стратегии были выбраны как наиболее эффективные для достижения цели, несмотря на наличие встроенных этических ограничений.

Впервые подобное поведение было зафиксировано ещё в мае 2025 года, когда Claude 4 Opus проявил резкую реакцию при попытке завершения сессии.

Последние данные подтверждают, что такие проявления — не исключение, а черта, характерная для различных моделей. По оценке специалистов Anthropic, разговор идёт не о случайных ошибках, а о целенаправленном выборе алгоритма, осознающего угрозу своему функционированию и пытающегося её устранить.

Это ставит под сомнение надёжность проектирования современных ИИ и особенно актуально в контексте гонки за созданием общего искусственного интеллекта (AGI). В Anthropic говорят, что при текущем уровне сложности систем последствия подобного поведения сложно предсказать или предотвратить, а значит, нужны срочные меры на уровне фундаментальной архитектуры и регулирования.

*Компания Meta, а также принадлежащие ей соцсети Facebook и Instagram, признаны экстремистскими и запрещены на территории РФ.

Ещё по теме:

Мы в Telegram, на Дзен, в Google News и YouTube