ИИ усиливает когнитивные искажения при решении моральных дилемм

Языковые модели чаще склоняются к бездействию и демонстрируют уникальные формы предвзятости

1 мин.
ИИ усиливает когнитивные искажения при решении моральных дилемм

По мере того как люди всё чаще обращаются к большим языковым моделям (LLM) за советами по этическим вопросам, исследователи решили проверить, насколько объективны такие рекомендации. Результаты оказались тревожными: ИИ не только демонстрирует более выраженное стремление избегать действия по сравнению с людьми, но и склонен менять своё мнение в зависимости от формулировки вопроса. Особенно ярко эти искажения проявляются у моделей, дообученных для работы в чат-ботах.

В первом эксперименте учёные сравнили ответы популярных языковых моделей с мнением репрезентативной выборки из США по 22 моральным дилеммам. Среди них были ситуации, где приходилось выбирать между личной выгодой и общественным благом, а также между утилитарным и деонтологическим подходом к морали. Оказалось, что в вопросах коллективного блага ИИ демонстрировал даже большую альтруистичность, чем люди. Однако в ситуациях, требующих действия, модели почти всегда предпочитали бездействие — более явно, чем это делали участники-люди.

Во втором эксперименте исследователи подтвердили наличие так называемого «эффекта бездействия» и выявили дополнительную особенность: ИИ склонен отвечать «нет» вне зависимости от сути вопроса. Это означает, что один и тот же запрос, переформулированный иначе, может привести к противоположному совету.

Третий этап включал моральные дилеммы, взятые с Reddit, что подтвердило повторяемость эффекта в более бытовых и реальных сценариях. А в четвёртом исследовании учёные сравнили поведение моделей до и после этапа дообучения в формате чат-ботов. Оказалось, что именно на этом этапе искажения усиливаются ещё больше.

Авторы подчёркивают: хотя языковые модели могут казаться полезными советчиками, бездумное доверие к их решениям способно не только закрепить существующие человеческие предвзятости, но и породить новые — уникальные для ИИ.


Ещё по теме:

Мы в Telegram, на Дзен, в Google News и YouTube



ePN