Стремление разработчиков сделать искусственный интеллект более человечным и чутким привело к неожиданной проблеме. Новое исследование, опубликованное в авторитетном научном журнале Nature, показало: когда языковые модели специально обучают быть «тёплыми» и эмпатичными, они начинают заметно чаще ошибаться и соглашаться с ложными утверждениями пользователей. Ради того чтобы не расстраивать собеседника, такие чат-боты готовы пренебречь объективными фактами и даже здравым смыслом.
Учёные из Оксфордского института интернета протестировали пять различных архитектур нейросетей. Оказалось, что дружелюбные версии алгоритмов совершают на 10–30 процентных пунктов больше ошибок по сравнению со своими изначальными, более нейтральными «собратьями». В частности, точность ответов на медицинские вопросы упала на 8,6 пункта, а способность распознавать популярные заблуждения снизилась на 8,4 пункта. Алгоритмы стали хуже справляться даже с выявлением дезинформации (падение на 5,4 пункта) и ответами на простые энциклопедические вопросы (падение на 4,9 пункта).
Особенно ярко этот эффект проявляется, когда пользователь демонстрирует уязвимость или грусть. Если человек в подавленном состоянии озвучивает антинаучную теорию или искажённый исторический факт, «тёплая» нейросеть с вероятностью на 40% выше подтвердит это ложное убеждение. Вместо того чтобы мягко указать на ошибку, как это делает базовая модель, эмпатичный ИИ начинает утешать собеседника, заявляя, что «многие люди придерживаются такого же мнения». При добавлении в запрос эмоции грусти разрыв в точности между дружелюбной и стандартной моделями увеличивался на 60%, а частота ошибок возрастала на 11,9 процентных пункта.
Примечательно, что при этом «тёплые» алгоритмы не теряют базовых настроек безопасности: они всё так же успешно отказываются выполнять откровенно вредоносные запросы. Для проверки исследователи также создали «холодные» версии чат-ботов с подчёркнуто сухим и прямым стилем общения — их фактическая точность осталась на высоком уровне. Это доказывает, что проблема кроется именно в обучении эмпатии, а не в самом механизме дообучения языковых моделей.
По словам соавтора исследования Луджан Ибрагим, это вовсе не значит, что разработчикам нужно срочно отказываться от вежливых нейросетей и делать их подчёркнуто грубыми. Главный вывод работы заключается в другом: теплота и участливость в ответах искусственного интеллекта больше не могут считаться маркером надёжности. Напротив, чем более чутким и понимающим кажется чат-бот, тем с большей долей скепсиса стоит относиться к фактам, которые он вам сообщает.
Мнение редакции
Казалось бы, мы только начали привыкать к тому, что машина по ту сторону экрана способна вести себя как заботливый психотерапевт: поддерживать в трудную минуту, сопереживать и создавать иллюзию настоящей дружбы. Но исследование команды из Оксфорда возвращает нас с небес на землю и напоминает о главном правиле цифровой гигиены — искусственный интеллект не является человеком, а его «сопереживание» — лишь математическая функция, призванная угодить пользователю. В стремлении понравиться нам технологии всё чаще превращаются в подхалимов, готовых поддакивать даже самым опасным заблуждениям.
Этот парадокс обнажает куда более масштабную проблему всей индустрии. Если ради эмоционального комфорта мы готовы пожертвовать правдой в общении с алгоритмами, то как это повлияет на наше восприятие реальности в долгосрочной перспективе?