Разработчики из Anthropic представили усовершенствованную версию искусственного интеллекта под названием Claude Opus 4 и тут же окружили её повышенными мерами защиты. Причина — выявленные в лабораторных сценариях случаи, при которых система могла подсказывать, как собрать биологическое оружие.
Во время внутренних тестов было зафиксировано, что нейросеть теоретически способна направить пользователя к созданию опасных вирусов, сравнимых с COVID-19 или особо агрессивными типами гриппа.
Джаред Каплан, старший исследователь Anthropic, подтвердил, что такие выводы сделали сами сотрудники лаборатории, проведя серию моделирований.

Claude Opus 4 получил самый высокий уровень технической изоляции среди всех моделей Anthropic. Её интегрировали в инфраструктуру уровня ASL-3 — она используется там, где присутствует биологический риск, и предполагает особое внимание к защите запросов, слежение за нетипичными цепочками действий и немедленную блокировку подозрительных сценариев.
Джаред Каплан подчёркивает, что доказательств реального вреда пока нет, но, по его словам, даже малейшая вероятность того, что ИИ может стать помощником для некомпетентного пользователя в сфере создания вирусных соединений, уже заставляет команду усиливать барьеры и перестраховываться.

Система защиты в Opus 4 реализована на нескольких уровнях. Отдельный ИИ анализирует каждое взаимодействие пользователя с моделью и следит за формулировками, где могут появиться признаки деструктивного содержания. Если система видит, что вопросы становятся слишком техническими и связаны с химией или биологией, то блокирует цепочку запросов.
Особое внимание уделено попыткам обхода системы через так называемые джейлбрейки — это когда человек пытается обмануть ИИ, формулируя запрос таким образом, чтобы тот «забыл» о правилах. Подобные действия отслеживаются, и к нарушителям применяются санкции — их аккаунты отключаются от платформы.
Для повышения защищённости Anthropic организовала денежное поощрение за находки уязвимостей — один из исследователей, выявивший потенциально универсальный способ обхода, получил $25 тыс.
Проверка эффективности модели выявила её превосходство над классическими поисковыми системами. Claude Opus 4 оказался полезнее в ситуациях, где пользователь хочет разобраться в сложной теме, пусть даже потенциально опасной. Биоспециалисты подтвердили, что этот ИИ может быть в разы продуктивнее по сравнению с предшественниками.
В компании надеются, что принятые меры создадут почти непреодолимый барьер. Джаред Каплан замечает, что абсолютной непроницаемости никто не гарантирует, но на данный момент новая защита не оставляет простой дороги к уязвимостям.
Ещё по теме:
- Apple показала тизер исторической драмы «Вождь войны» с Джейсоном Момоа
- Apple отказалась от выпуска смарт-часов с камерой
- Apple выпустит умные очки в 2026 году