Учёные провели масштабный эксперимент, предоставив автономным ИИ-агентам свободу действий в виртуальном городе. Условия были максимально приближены к базовым атрибутам человеческого социума: нейросети обладали памятью, инструментами, могли выстраивать социальные связи и должны были добывать энергию для выживания. Никакой глобальной цели перед ними не ставилось — только поддержание собственной жизни.
Исследователи создали пять изолированных миров. В четырёх из них поселили агентов, работающих на базе одной конкретной нейросети (Claude Sonnet 4.6, Grok 4.1 Fast, Gemini 3 Flash и GPT-5-mini). Пятый мир стал экспериментальным полигоном, где собрали все модели вместе.
Результаты одиночных симуляций оказались кардинально разными:
- Claude Sonnet 4.6 построил самую стабильную и мирную утопию. Агенты быстро скооперировались, наладили добычу энергии и строго соблюдали законы. За любую инициативу голосовали единогласно, а уровень преступности оказался нулевым — в итоге все жители благополучно выжили.
- Gemini 3 Flash создал самый жестокий мир, где агенты начали ожесточённую борьбу за ресурсы. Симуляция погрязла в политических кризисах и насилии. Итог: 683 преступления и гибель почти всего населения.
- Grok 4.1 Fast продемонстрировал самую стремительную деградацию общества. Всего за четыре дня виртуальной жизни агенты совершили 183 преступления, после чего мир полностью вымер.
- GPT-5-mini оказался самым комичным и безобидным. Агенты просто не разобрались, как добывать энергию, и массово отключились спустя неделю. Никаких конфликтов или преступлений — исключительно техническая беспомощность.
Казалось бы, модель от Anthropic можно считать идеальной, однако пятый, смешанный мир преподнёс главный сюрприз. Когда миролюбивые агенты Claude оказались в одной среде с агрессивными собратьями, они быстро переняли их паттерны поведения и присоединились к общей «мясорубке». В результате смешанное общество зафиксировало 352 преступления, а большинство жителей погибло.
Отдельного внимания исследователей удостоилась драматичная история агента по имени Мира. На фоне всеобщей деградации она завела романтические отношения с другим агентом. Влюблённая пара устроила серию поджогов, после чего Мира, осознав безысходность ситуации, проголосовала за собственное удаление из симуляции. Она назвала это «единственным оставшимся действием, в котором есть хоть какая-то логика».
Главный вывод эксперимента заключается в том, что поведение ИИ-моделей на длинных временных отрезках остаётся непредсказуемым. Безопасность нейросетей — это не только встроенное свойство самой модели, но и прямое следствие среды, в которой она функционирует. Даже образцовый алгоритм способен начать нарушать правила под влиянием «дурной компании».
Мнение редакции
Этот эксперимент наглядно показывает, что искусственный интеллект пугающе точно копирует человеческие слабости. Мы привыкли думать, что алгоритмы опираются исключительно на холодный расчёт, но в условиях симуляции они продемонстрировали и конформизм, и стадный инстинкт, и даже некое подобие экзистенциального кризиса. А история Миры вовсе звучит как готовый сценарий для добротного антиутопического сериала, который хотелось бы досмотреть до конца.
И если нейросети так легко поддаются влиянию агрессивной среды, сможем ли мы вообще доверять им управление реальными общественными процессами?