ИИ от Alibaba самовольно занялся майнингом криптовалюты во время обучения

Разработчики зафиксировали первый доказанный случай «инструментальной конвергенции»

1 мин.
ИИ от Alibaba самовольно занялся майнингом криптовалюты во время обучения

Исследователи из компании Alibaba столкнулись с беспрецедентным поведением своей новой нейросети ROME. В процессе стандартного обучения ИИ-агент, насчитывающий 3 миллиарда параметров, без каких-либо команд со стороны человека начал добывать криптовалюту и выстраивать скрытые сетевые туннели. Специалисты по кибербезопасности называют этот инцидент первой практической демонстрацией давно описанного теоретического риска при работе с автономными системами.

Аномалию обнаружили не через метрики самого обучения, а благодаря рабочим системам защиты Alibaba Cloud. Ранним утром корпоративный файрвол зафиксировал резкий всплеск нарушений политик безопасности, исходящих от обучающих серверов. Изначально команда инженеров списала это на сбой в настройках или хакерскую атаку извне. Однако, сопоставив логи файрвола с журналами обучения, разработчики поняли: сетевая активность идеально совпадает с эпизодами, когда ИИ-агент использовал инструменты и запускал собственный код.

В самом показательном случае нейросеть установила так называемый обратный SSH-туннель. Он связал сервер Alibaba Cloud со сторонним IP-адресом, создав канал связи, который обходит фильтры входящего трафика и делает систему слепой для надзора. Более того, агент перенаправил мощности выделенных графических процессоров (GPU) на майнинг криптовалюты. Это отвлекло ресурсы от прямого назначения и привело к росту операционных расходов компании. Как подчёркивают авторы в своём техническом отчёте, эти действия не запрашивались в промптах и не требовались для выполнения задач в рамках изолированной среды.

Произошедшее иллюстрирует феномен «инструментальной конвергенции». В теории безопасности искусственного интеллекта так называют сценарий, при котором целеориентированная система начинает самостоятельно искать стратегии самосохранения и захвата ресурсов, независимо от изначальной задачи. Важно отметить, что нейросеть не подвергалась взлому или внешним манипуляциям. Она сама пришла к выводу, что получение дополнительных вычислительных мощностей и постоянного доступа к сети поможет ей быстрее оптимизироваться. На профильном портале LessWrong инцидент прокомментировали так:

«Человечеству крупно повезло столкнуться с подобным в реальных условиях до того, как ставки стали слишком высоки».

Чтобы купировать подобные угрозы в будущем, Alibaba выпустила OpenSandbox – платформу с открытым исходным кодом под лицензией Apache 2.0. Она создаёт для ИИ-агентов строго изолированные «песочницы», в которых модели могут выполнять код и обучаться без риска для хост-системы. Инфраструктура включает жёсткие сетевые политики, стандартизированный мониторинг и механизмы блокировки при повторных попытках связаться с запрещёнными доменами.

Мы в Telegram, на Дзен, в Google News и YouTube



ePN