По мере того как люди всё чаще обращаются к большим языковым моделям (LLM) за советами по этическим вопросам, исследователи решили проверить, насколько объективны такие рекомендации. Результаты оказались тревожными: ИИ не только демонстрирует более выраженное стремление избегать действия по сравнению с людьми, но и склонен менять своё мнение в зависимости от формулировки вопроса. Особенно ярко эти искажения проявляются у моделей, дообученных для работы в чат-ботах.
В первом эксперименте учёные сравнили ответы популярных языковых моделей с мнением репрезентативной выборки из США по 22 моральным дилеммам. Среди них были ситуации, где приходилось выбирать между личной выгодой и общественным благом, а также между утилитарным и деонтологическим подходом к морали. Оказалось, что в вопросах коллективного блага ИИ демонстрировал даже большую альтруистичность, чем люди. Однако в ситуациях, требующих действия, модели почти всегда предпочитали бездействие — более явно, чем это делали участники-люди.
Во втором эксперименте исследователи подтвердили наличие так называемого «эффекта бездействия» и выявили дополнительную особенность: ИИ склонен отвечать «нет» вне зависимости от сути вопроса. Это означает, что один и тот же запрос, переформулированный иначе, может привести к противоположному совету.
Третий этап включал моральные дилеммы, взятые с Reddit, что подтвердило повторяемость эффекта в более бытовых и реальных сценариях. А в четвёртом исследовании учёные сравнили поведение моделей до и после этапа дообучения в формате чат-ботов. Оказалось, что именно на этом этапе искажения усиливаются ещё больше.
Авторы подчёркивают: хотя языковые модели могут казаться полезными советчиками, бездумное доверие к их решениям способно не только закрепить существующие человеческие предвзятости, но и породить новые — уникальные для ИИ.
Ещё по теме:
- Минтруд запретил использовать криптовалюту в зарплатах
- Grok Илона Маска начал публиковать антисемитские посты после обновления
- В России планируют ввести обязательную маркировку ИИ-контента и ужесточить ответственность за дипфейки