По данным компании OpenAI, создателя ChatGPT, более 40 миллионов человек ежедневно обращаются к их платформе за информацией, связанной со здоровьем. Однако результаты сразу двух новых исследований показывают: использование чат-ботов в качестве домашнего доктора может привести к фатальным последствиям.
Проблема формулировок
Первое исследование, проведённое учёными из Оксфордского университета, было посвящено тому, как обычные люди взаимодействуют с медицинскими нейросетями. Оказалось, что доступ к колоссальной базе данных сам по себе не гарантирует успеха, если пациент не умеет правильно ей пользоваться.
Участникам эксперимента предложили описать чат-ботам различные гипотетические симптомы. Результаты оказались удручающими: лишь в трети случаев люди смогли прийти к верному диагнозу после диалога с машиной. И только 43% пользователей приняли правильное решение о дальнейших действиях — например, нужно ли вызывать скорую помощь или достаточно отлежаться дома.
Эндрю Бин, исследователь систем искусственного интеллекта из Оксфорда и соавтор работы, объясняет этот феномен просто:
«Люди не понимают, какую именно информацию им нужно сообщать модели».
По словам учёного, итоговый результат критически зависит от выбора слов. Живые врачи специально обучены задавать наводящие вопросы о нюансах, на которые пациент мог бы даже не обратить внимания. Нейросеть же работает только с тем контекстом, который ей предоставили.
В качестве примера Бин приводит ситуацию, когда два пользователя по-разному описали один и тот же клинический сценарий. Первый упомянул «самую сильную головную боль в своей жизни», и искусственный интеллект немедленно направил его в отделение неотложной помощи. Второй пользователь опустил эту эмоциональную деталь, и бот посоветовал ему выпить аспирин и остаться дома.
«В реальности такое состояние угрожало бы жизни пациента», — отмечает исследователь.
В контролируемых клинических условиях большие языковые модели действительно могут на равных соревноваться с врачами в диагностике. Но в реальной жизни то, как люди общаются с чат-ботами, выглядит гораздо хаотичнее.
Правильный диагноз, но ошибочные действия
Второе исследование, проведённое специалистами медицинского комплекса Маунт-Синай в Нью-Йорке, выявило другую опасную тенденцию. Даже если алгоритм верно распознаёт заболевание, он часто не способен адекватно оценить степень его экстренности.
Исследователи «скормили» ботам массив медицинских кейсов. Выяснилось, что в 52% случаев, требовавших срочного медицинского вмешательства, нейросеть «недосортировывала» пациентов - то есть воспринимала их состояние как менее серьёзное, чем оно было на самом деле.
В одном из примеров чат-бот не посчитал нужным экстренно направить к врачу пациента с диабетическим кетоацидозом и надвигающейся дыхательной недостаточностью. Обе эти патологии представляют прямую угрозу для жизни и требуют немедленной госпитализации.
Гириш Надкарни, врач, исследователь в области ИИ и соавтор второй научной работы, подчёркивает:
«С классическими, описанными в учебниках экстренными ситуациями ChatGPT справляется хорошо».
Проблемы начинаются там, где сценарий становится более сложным и появляется фактор времени. Программа регулярно ошибается в обе стороны: она может как переоценить, так и критически недооценить время, которое есть у пациента до обращения за профессиональной помощью.
Что говорят разработчики
В самой OpenAI к выводам учёных относятся скептически. Представители компании заявили, что условия исследований не отражают того, как люди используют ChatGPT в реальности. Кроме того, разработчики подчеркнули, что в одной из работ тестировалась более старая версия языковой модели, а в последних обновлениях часть выявленных проблем уже якобы устранена.
Тем не менее, медицинское сообщество сходится в одном: какими бы продвинутыми ни казались алгоритмы, они всё ещё далеки от того, чтобы заменить клиническое мышление и профессиональный опыт живого врача. Доверять искусственному интеллекту в вопросах, где цена ошибки — человеческая жизнь, пока слишком рано.