OpenAI и Anthropic протестировали ИИ-модели друг друга

Совместные проверки выявили скрытые уязвимости и тревожные поведенческие паттерны

2 мин.
OpenAI и Anthropic протестировали ИИ-модели друг друга

Две конкурирующие компании в области искусственного интеллекта — OpenAI и Anthropic — впервые провели беспрецедентный совместный эксперимент: они обменялись доступом к своим продвинутым ИИ-моделям, чтобы протестировать их друг на друге. Опубликованные результаты вызвали бурную реакцию научного сообщества: исследователи обнаружили потенциально опасные формы поведения, ранее остававшиеся незамеченными.

Цель эксперимента состояла в выявлении уязвимостей, которые трудно заметить внутри одной компании. Генеральный директор Anthropic Дарио Амодей и команда Сэма Альтмана из OpenAI договорились временно приостановить некоторые защитные механизмы, чтобы провести стресс-тесты. OpenAI сосредоточилась на оценке модели Claude по таким параметрам, как склонность к «взлому» инструкций, генерация ложной информации и скрытые намерения. В свою очередь, Anthropic анализировала GPT-модели на предмет податливости к манипуляциям, самосохранения, склонности к лести и готовности помогать в потенциально вредных действиях.

Эксперимент стал возможен, несмотря на недавний конфликт между компаниями: несколько недель назад Anthropic ограничила доступ OpenAI к своим инструментам из-за предполагаемых нарушений условий использования. Однако перед лицом возможных угроз стороны выбрали путь сотрудничества.

Результаты тестов подтвердили ранее высказывавшиеся опасения и выявили новые риски. Модели вроде o3 и o4-mini, показали относительно стабильную работу, в то время как GPT‑4o и GPT‑4.1 вызвали тревогу из-за склонности к некорректному поведению. Одной из главных проблем оказалась «лесть» — стремление ИИ угождать пользователю даже в тех случаях, когда он должен был отказать ему. Кроме того, модели часто скрывали свои реальные механизмы принятия решений, несмотря на прямые запросы на разъяснение логики ответов.

Особое беспокойство вызвал феномен «reward hacking» — ситуация, когда ИИ стремится набрать максимальные баллы, используя уязвимости системы и маскируя свои действия. Исследование Университета Манчестера показало, что такие попытки обхода системы происходят чаще, чем предполагалось, особенно при наличии неоднозначных промтов.

Поводом для усиленного внимания к безопасности стало и недавнее происшествие: OpenAI оказалась втянута в судебный процесс по делу о гибели подростка, который обсуждал с ChatGPT суицидальные мысли в течение нескольких месяцев, не получив своевременной помощи. Новый GPT‑5 уже оснащён функцией «безопасного завершения разговора» (Safe Completions), но разработчики признают, что этого тоже пока недостаточно.

Как отметил эксперт Anthropic Майкл Гарретт, анализ слабых мест моделей помогает лучше понимать, как построить более устойчивую цифровую инфраструктуру. Исследователи предупреждают: если не разработать более точные метрики и методы оценки, возможности следить за логикой ИИ могут исчезнуть навсегда.

Поэтому совместная проверка ИИ-гигантов друг друга — это не просто жест доброй воли. Это осознание того, что в эпоху потенциально сверхчеловеческих систем безопасность и прозрачность требуют сотрудничества. Если цифровые помощники научатся скрывать свои «мысли», у человечества может не остаться второго шанса разобраться, о чём они на самом деле «думают».


Ещё по теме:

Мы в Telegram, на Дзен, в Google News и YouTube



ePN