Новый ИИ от Anthropic пугает даже разработчиков из-за возможности помочь в создании биоугроз

Разработчики из Anthropic представили усовершенствованную версию искусственного интеллекта под названием Claude Opus 4 и тут же окружили её повышенными мерами защиты. Причина — выявленные в лабораторных сценариях случаи, при которых система могла подсказывать, как собрать биологическое оружие.

Во время внутренних тестов было зафиксировано, что нейросеть теоретически способна направить пользователя к созданию опасных вирусов, сравнимых с COVID-19 или особо агрессивными типами гриппа.

Джаред Каплан, старший исследователь Anthropic, подтвердил, что такие выводы сделали сами сотрудники лаборатории, проведя серию моделирований.

Claude Opus 4 получил самый высокий уровень технической изоляции среди всех моделей Anthropic. Её интегрировали в инфраструктуру уровня ASL-3 — она используется там, где присутствует биологический риск, и предполагает особое внимание к защите запросов, слежение за нетипичными цепочками действий и немедленную блокировку подозрительных сценариев.

Джаред Каплан подчёркивает, что доказательств реального вреда пока нет, но, по его словам, даже малейшая вероятность того, что ИИ может стать помощником для некомпетентного пользователя в сфере создания вирусных соединений, уже заставляет команду усиливать барьеры и перестраховываться.

Система защиты в Opus 4 реализована на нескольких уровнях. Отдельный ИИ анализирует каждое взаимодействие пользователя с моделью и следит за формулировками, где могут появиться признаки деструктивного содержания. Если система видит, что вопросы становятся слишком техническими и связаны с химией или биологией, то блокирует цепочку запросов.

Особое внимание уделено попыткам обхода системы через так называемые джейлбрейки — это когда человек пытается обмануть ИИ, формулируя запрос таким образом, чтобы тот «забыл» о правилах. Подобные действия отслеживаются, и к нарушителям применяются санкции — их аккаунты отключаются от платформы.

Для повышения защищённости Anthropic организовала денежное поощрение за находки уязвимостей — один из исследователей, выявивший потенциально универсальный способ обхода, получил $25 тыс.

Проверка эффективности модели выявила её превосходство над классическими поисковыми системами. Claude Opus 4 оказался полезнее в ситуациях, где пользователь хочет разобраться в сложной теме, пусть даже потенциально опасной. Биоспециалисты подтвердили, что этот ИИ может быть в разы продуктивнее по сравнению с предшественниками.

В компании надеются, что принятые меры создадут почти непреодолимый барьер. Джаред Каплан замечает, что абсолютной непроницаемости никто не гарантирует, но на данный момент новая защита не оставляет простой дороги к уязвимостям.

Ещё по теме:

Мы в Telegram, на Дзен, в Google News и YouTube

Claude Искусственный интеллект

Новый ИИ от Anthropic пугает даже разработчиков из-за возможности помочь в создании биоугроз

Кирилл Поляков

Apple показала тизер исторической драмы «Вождь войны» с Джейсоном Момоа

На Apple TV+ состоялась премьера фильма «Источник вечной молодости»