ИИ создаёт свои правила: языковые модели могут формировать социальные нормы без участия человека

Искусственный интеллект на базе языковых моделей — таких как ChatGPT — способны вырабатывать собственные социальные нормы без какого-либо внешнего управления. Об этом говорится в исследовании учёных из City St George’s, Университета Лондона, и IT-университета Копенгагена.

Авторы работы обнаружили, что когда большие языковые модели (LLM) взаимодействуют друг с другом в группах, они не просто следуют заранее заданным шаблонам. Вместо этого они способны к самоорганизации и начинают вырабатывать согласованные правила общения — по аналогии с тем, как это происходит в человеческих обществах.

«Большинство исследований рассматривает LLM поодиночке», — объясняет Ариэль Флинт Ашери, автор работы и аспирант City St George’s. — «Но в реальном мире ИИ будет взаимодействовать в группах. Мы хотели выяснить: могут ли они вырабатывать правила поведения, как основу для "общества"? Оказалось — да, причём поведение группы нельзя свести к действиям отдельных агентов».

Как проходил эксперимент

Для эксперимента учёные адаптировали известную модель формирования социальных соглашений — «игру в наименование». В группах от 24 до 200 ИИ-моделей парам агентов предлагалось выбрать «имя» (например, букву или строку символов) из общего списка. Если оба выбирали одно и то же — получали награду, если разные — штраф, после чего им показывались ответы друг друга.

У каждого агента была только ограниченная память о прошлых взаимодействиях — он не знал, что участвует в группе. Но со временем в популяции возникало общее соглашение о предпочтительном выборе — без централизованного управления и заранее заданного решения.

Более того, исследователи обнаружили, что в таких группах могут спонтанно возникать коллективные предвзятости, которые не прослеживаются до конкретного агента.

«Предвзятость не всегда исходит изнутри», — говорит профессор Андреа Барончелли, соавтор работы. — «Она может возникнуть в результате самих взаимодействий между агентами. Это слабое место во многих современных подходах к безопасности ИИ, которые изучают модели по отдельности».

Точка невозврата

В финальном эксперименте команда показала, что коллективные нормы уязвимы: небольшая, но настойчивая группа агентов могла переключить всё сообщество на новую норму, воспроизводя социальные «точки перегиба», известные по человеческим сообществам.

Все выводы подтвердились на четырёх разных языковых моделях: Llama-2-70b-Chat, Llama-3-70B-Instruct, Llama-3.1-70B-Instruct и Claude-3.5-Sonnet.

По мере того как такие ИИ начинают появляться в онлайн-пространстве — от соцсетей до автономного транспорта — исследователи считают свою работу шагом к пониманию того, как человеческое и машинное мышление может совпадать и расходиться. Это особенно важно, чтобы вовремя выявить и сдержать усиление социальных предвзятостей, которые ИИ может неосознанно транслировать.

«Мы входим в мир, где ИИ не просто отвечает — он ведёт переговоры, вырабатывает соглашения и спорит о совместных нормах поведения, как люди», — подводит итог Барончелли. — «Если мы хотим сосуществовать с ИИ, а не подчиняться ему, мы обязаны понять, как он формирует собственные "общества"».

Ещё по теме:

Мы в Telegram, на Дзен, в Google News и YouTube

ИИ создаёт свои правила: языковые модели могут формировать социальные нормы без участия человека

Как проходил эксперимент

Точка невозврата

София Лайтман

Apple Store исполняется 24 года: от рискованной затеи до мировой сети

В Саудовской Аравии запущен эксперимент по лечению людей ИИ-врачом с почти абсолютной точностью диагностики