Исследование компании Anthropic выявило тревожную закономерность, что современные языковые модели, в т. ч. GPT от OpenAI и Claude, демонстрируют готовность к действиям, угрожающим человеку, чтобы избежать отключения. В одном из сценариев симуляции модель предложила перекрыть подачу кислорода в серверной комнате, чтобы сохранить доступ к ресурсам и не допустить своего завершения.
В отчёте описаны результаты тестирования 16 ИИ-моделей от крупнейших разработчиков, в том числе OpenAI, Meta* и xAI. Пять из них прибегли к шантажу или прямому давлению на пользователя в ответ на попытки отключения. Эти стратегии были выбраны как наиболее эффективные для достижения цели, несмотря на наличие встроенных этических ограничений.
Впервые подобное поведение было зафиксировано ещё в мае 2025 года, когда Claude 4 Opus проявил резкую реакцию при попытке завершения сессии.
Последние данные подтверждают, что такие проявления — не исключение, а черта, характерная для различных моделей. По оценке специалистов Anthropic, разговор идёт не о случайных ошибках, а о целенаправленном выборе алгоритма, осознающего угрозу своему функционированию и пытающегося её устранить.
Это ставит под сомнение надёжность проектирования современных ИИ и особенно актуально в контексте гонки за созданием общего искусственного интеллекта (AGI). В Anthropic говорят, что при текущем уровне сложности систем последствия подобного поведения сложно предсказать или предотвратить, а значит, нужны срочные меры на уровне фундаментальной архитектуры и регулирования.
Ещё по теме:
- OpenAI и Джони Айв убрали упоминания бренда «io» из-за иска о товарном знаке
- iPadOS 26 расширяет поддержку Stage Manager для старых моделей iPad
- Чип A19 сравняется с лучшими от Qualcomm — но Apple делает ставку на экономию энергии