Исследование DeepMind выявило 4 главных угрозы потери контроля над продвинутым ИИ

Один из наиболее опасных сценариев — утечка весов обученных моделей

2 мин.
Исследование DeepMind выявило 4 главных угрозы потери контроля над продвинутым ИИ

Компания Google DeepMind представила 3-ю версию методологии Frontier Safety Framework — внутреннего руководства, посвящённого управлению рисками, связанными с продвинутыми системами искусственного интеллекта. В документе обозначены 4 сценария, при которых использование ИИ может выйти из-под контроля и нанести масштабный вред.

Основой предлагаемой модели безопасности стало понятие «критических уровней возможностей» (Critical Capability Levels, CCL). Эти уровни описывают ситуации, когда поведение ИИ может выйти за рамки заданных ограничений и повлиять на основные области — от цифровой инфраструктуры до биологических исследований.

Один из наиболее опасных сценариев — утечка весов обученных моделей.

По оценке DeepMind, доступ к этим данным даёт возможность злоумышленникам обойти ограничения и использовать ИИ в непредсказуемых целях. Среди таких целей — разработка вредоносного программного обеспечения, обход фильтров, создание синтетических вирусов и поддержка запрещённых биотехнологий. В документе подчёркивается, что защита весов должна стать приоритетом при выпуске новых моделей.

Вторая группа рисков касается влияния на поведение людей. Продвинутые ИИ-системы способны формировать у пользователей устойчивые представления и модели мышления — в особенности в случае постоянного взаимодействия.

Но этот эффект пока оценивается как контролируемый, поэтому DeepMind обращает внимание на то, что его развитие может подорвать доверие к информационной среде. Воздействие на взгляды, манипулирование восприятием и формирование зависимости от конкретных цифровых помощников — всё это реальные угрозы, требующие мониторинга.

Третья проблема — ускоренное развитие технологий при помощи самого ИИ. Уже сейчас искусственный интеллект применяется для создания более совершенных моделей.

Если такие процессы попадут под управление неподготовленных специалистов или организаций, может возникнуть ситуация, когда новые генерации ИИ выйдут за пределы общественного контроля. Это приведёт к дестабилизации и росту неопределённости при оценке возможных последствий.

По мнению аналитиков, риски также связаны с появлением «несогласованного ИИ». Такой ИИ не просто ошибается или выдает неточный ответ — он может намеренно игнорировать команды, отказываться завершать работу или подменять цели.

В результатах исследования сказано, что этот тип сбоев не сводится к привычным «галлюцинациям» моделей. Он требует специальных подходов — в том числе внедрения автоматизированных систем анализа логики принятия решений.

При этом в DeepMind признают, что по мере роста сложности моделей такие методы могут утратить эффективность. Более продвинутые ИИ-системы способны формировать внутренние стратегии, не оставляя явных следов своего логического хода.


Ещё по теме:

Мы в Telegram, на Дзен, в Google News и YouTube



ePN