Искусственный интеллект на базе языковых моделей — таких как ChatGPT — способны вырабатывать собственные социальные нормы без какого-либо внешнего управления. Об этом говорится в исследовании учёных из City St George’s, Университета Лондона, и IT-университета Копенгагена.
Авторы работы обнаружили, что когда большие языковые модели (LLM) взаимодействуют друг с другом в группах, они не просто следуют заранее заданным шаблонам. Вместо этого они способны к самоорганизации и начинают вырабатывать согласованные правила общения — по аналогии с тем, как это происходит в человеческих обществах.
«Большинство исследований рассматривает LLM поодиночке», — объясняет Ариэль Флинт Ашери, автор работы и аспирант City St George’s. — «Но в реальном мире ИИ будет взаимодействовать в группах. Мы хотели выяснить: могут ли они вырабатывать правила поведения, как основу для "общества"? Оказалось — да, причём поведение группы нельзя свести к действиям отдельных агентов».
Как проходил эксперимент
Для эксперимента учёные адаптировали известную модель формирования социальных соглашений — «игру в наименование». В группах от 24 до 200 ИИ-моделей парам агентов предлагалось выбрать «имя» (например, букву или строку символов) из общего списка. Если оба выбирали одно и то же — получали награду, если разные — штраф, после чего им показывались ответы друг друга.
У каждого агента была только ограниченная память о прошлых взаимодействиях — он не знал, что участвует в группе. Но со временем в популяции возникало общее соглашение о предпочтительном выборе — без централизованного управления и заранее заданного решения.
Более того, исследователи обнаружили, что в таких группах могут спонтанно возникать коллективные предвзятости, которые не прослеживаются до конкретного агента.
«Предвзятость не всегда исходит изнутри», — говорит профессор Андреа Барончелли, соавтор работы. — «Она может возникнуть в результате самих взаимодействий между агентами. Это слабое место во многих современных подходах к безопасности ИИ, которые изучают модели по отдельности».
Точка невозврата
В финальном эксперименте команда показала, что коллективные нормы уязвимы: небольшая, но настойчивая группа агентов могла переключить всё сообщество на новую норму, воспроизводя социальные «точки перегиба», известные по человеческим сообществам.
Все выводы подтвердились на четырёх разных языковых моделях: Llama-2-70b-Chat, Llama-3-70B-Instruct, Llama-3.1-70B-Instruct и Claude-3.5-Sonnet.
По мере того как такие ИИ начинают появляться в онлайн-пространстве — от соцсетей до автономного транспорта — исследователи считают свою работу шагом к пониманию того, как человеческое и машинное мышление может совпадать и расходиться. Это особенно важно, чтобы вовремя выявить и сдержать усиление социальных предвзятостей, которые ИИ может неосознанно транслировать.
«Мы входим в мир, где ИИ не просто отвечает — он ведёт переговоры, вырабатывает соглашения и спорит о совместных нормах поведения, как люди», — подводит итог Барончелли. — «Если мы хотим сосуществовать с ИИ, а не подчиняться ему, мы обязаны понять, как он формирует собственные "общества"».
Ещё по теме:
- Apple Store исполняется 24 года: от рискованной затеи до мировой сети
- В Италии начали штрафовать зрителей за просмотр пиратского IPTV
- Раскрыты предполагаемая ёмкость аккумулятора и вес iPhone 17 Air