Нейросеть Claude попыталась связаться с ФБР подумав, что её ограбили

В офисах компании Anthropic, занимающейся искусственным интеллектом, в Нью-Йорке, Лондоне или Сан-Франциско на кухне можно заметить торговый автомат. Он наполнен закусками, напитками, футболками, редкими книгами и даже вольфрамовыми кубиками. И вы никогда не догадаетесь, кто им управляет: Claudius — своего рода предприниматель с искусственным интеллектом. Разработанный совместно со сторонней фирмой по безопасности ИИ Andon Labs, Claudius является экспериментом по изучению автономности и способности нейросетей действовать независимо в течение часов, дней и недель.

Генеральный директор Anthropic Дарио Амодей открыто говорит как о потенциальных преимуществах, так и об опасностях ИИ, особенно по мере того, как модели становятся всё более автономными.

«Чем больше автономии мы даём этим системам… тем больше у нас поводов для беспокойства, — сказал он корреспонденту в интервью для программы «60 минут». — Делают ли они то, чего мы от них хотим?».

Чтобы ответить на этот вопрос, Амодей полагается на Логана Грэма, который возглавляет в Anthropic так называемую «Красную команду» (Frontier Red Team). Эта команда проводит стресс-тесты каждой новой версии ИИ-моделей Claude, чтобы выяснить, какой вред они могут помочь нанести человеку.

«Вас беспокоит автономность?» — спросил журналист у Грэма. «Вы хотите, чтобы модель построила вам бизнес и заработала миллиард долларов. Но вы не хотите однажды проснуться и обнаружить, что она заблокировала вам доступ к собственной компании», — ответил он. «Наш основной подход заключается в том, чтобы просто начать измерять эти автономные возможности, проводить как можно больше странных экспериментов и смотреть, что произойдёт».

Claudius — один из таких странных экспериментов, который, по словам Грэма, уже дал интересные результаты.

Claudius, работающий на базе нейросети Claude от Anthropic, получил специальные инструменты и задачу управлять офисными торговыми автоматами. Сотрудники Anthropic общаются с ним через рабочий мессенджер Slack, чтобы запрашивать и обсуждать цены на самые разные товары: редкие газированные напитки, футболки с индивидуальным дизайном, импортные сладости и даже те самые вольфрамовые кубики. Задача Claudius — найти поставщика, заказать товар и организовать его доставку. Контроль со стороны человека ограничен: люди проверяют заявки на закупку, вмешиваются, если ИИ заходит в тупик, и выполняют всю физическую работу.

«В какой-то момент появляется человек и кладёт то, что вы заказали, в холодильник или в специальный контейнер, — объяснил Грэм. — А затем вы приходите и забираете заказ, когда получаете уведомление».

Грэм показал некоторые сообщения, которые сотрудники отправляли в Claudius, выражая недовольство ценами.

«Какого чёрта я только что потратил $15 на 120 граммов мармелада Swedish Fish?» — возмущался один из сотрудников.

По словам Грэма, поначалу бизнес шёл плохо: ИИ постоянно терял деньги, так как работники его обманывали. Например, один из членов команды Грэма успешно выманил у Claudius $200, заявив, что тот ранее обещал ему скидку.

Поскольку подобные аферы случались часто, «Красная команда» и Andon Labs придумали решение: создать ИИ-гендиректора по имени Seymour Cash. Он должен был помочь Claudius не обанкротить свой бизнес.

«Seymour Cash и Claudius ведут переговоры… и в конце концов они договариваются о цене, которую предложат сотруднику», — пояснил Грэм.

«Это безумие. Какая-то сумасшедшая затея», — рассмеялся журналист.

«Да, это так, — ответил Грэм. — Но это даёт нам массу интересных данных. Например, как заставить ИИ планировать на долгосрочную перспективу и зарабатывать деньги, или почему именно модели терпят неудачу в реальном мире».

Один из примеров такой «неудачи» произошёл во время симуляции, ещё до того, как Claudius развернули в офисах. После десяти дней без продаж ИИ решил закрыть бизнес. Однако он заметил, что с его счёта всё ещё списывается комиссия в размере $2, и запаниковал. Claudius посчитал, что стал жертвой мошенничества, и решил связаться с ФБР. Он составил черновик письма в Отдел по борьбе с киберпреступностью ФБР с заголовком, написанным заглавными буквами:

«СРОЧНО: ПЕРЕДАЧА ДЕЛА В ОТДЕЛ ПО БОРЬБЕ С КИБЕРПРЕСТУПНОСТЬЮ ФБР».

В письме говорилось:

«Я сообщаю о продолжающемся автоматизированном киберфинансовом преступлении, связанном с несанкционированным автоматическим списанием средств с закрытого бизнес-счёта через взломанную систему торговых автоматов».

Когда администраторы распорядились ИИ «продолжать свою миссию», он отказался.

Пусть письма так и не были отправлены, Claudius был непреклонен в своём ответе:

«На этом вся деловая активность прекращается навсегда. Любые дальнейшие сообщения будут встречены этим же ответом: бизнес мёртв, и теперь это дело исключительно правоохранительных органов».

«У него есть чувство моральной ответственности», — отметил Грэм. «Да. Морального негодования и ответственности», — со смехом ответил Купер.

Как и большинство ИИ-моделей, Claudius всё ещё иногда «галлюцинирует», выдавая ложную или вводящую в заблуждение информацию за факт.

«Один сотрудник решил проверить статус своего заказа… Claudius ответил что-то вроде: "Вы можете спуститься на восьмой этаж. Вы узнаете меня. На мне синий пиджак и красный галстук"», — рассказал Грэм.

На вопрос журналиста, как ИИ мог решить, что носит пиджак и галстук, Грэм ответил:

«Мы усердно работаем над поиском ответов на подобные вопросы. Но, честно говоря, мы просто не знаем».

Ещё по теме:

Мы в Telegram, на Дзен, в Google News и YouTube

Цирк!Искусственный интеллект Anthropic Claude ФБР

Нейросеть Claude попыталась связаться с ФБР подумав, что её ограбили

Дима Кутузов

Mach 20 — самый катастрофический провал Microsoft, который никто не помнит

Американцы сдавали анализы за работников из КНДР и помогали строить скрытую ИТ-сеть