ChatGPT и медицинские советы: почему нейросети пока нельзя доверять своё здоровье

По данным компании OpenAI, создателя ChatGPT, более 40 миллионов человек ежедневно обращаются к их платформе за информацией, связанной со здоровьем. Однако результаты сразу двух новых исследований показывают: использование чат-ботов в качестве домашнего доктора может привести к фатальным последствиям.

Проблема формулировок

Первое исследование, проведённое учёными из Оксфордского университета, было посвящено тому, как обычные люди взаимодействуют с медицинскими нейросетями. Оказалось, что доступ к колоссальной базе данных сам по себе не гарантирует успеха, если пациент не умеет правильно ей пользоваться.

Участникам эксперимента предложили описать чат-ботам различные гипотетические симптомы. Результаты оказались удручающими: лишь в трети случаев люди смогли прийти к верному диагнозу после диалога с машиной. И только 43% пользователей приняли правильное решение о дальнейших действиях — например, нужно ли вызывать скорую помощь или достаточно отлежаться дома.

Эндрю Бин, исследователь систем искусственного интеллекта из Оксфорда и соавтор работы, объясняет этот феномен просто:

«Люди не понимают, какую именно информацию им нужно сообщать модели».

По словам учёного, итоговый результат критически зависит от выбора слов. Живые врачи специально обучены задавать наводящие вопросы о нюансах, на которые пациент мог бы даже не обратить внимания. Нейросеть же работает только с тем контекстом, который ей предоставили.

В качестве примера Бин приводит ситуацию, когда два пользователя по-разному описали один и тот же клинический сценарий. Первый упомянул «самую сильную головную боль в своей жизни», и искусственный интеллект немедленно направил его в отделение неотложной помощи. Второй пользователь опустил эту эмоциональную деталь, и бот посоветовал ему выпить аспирин и остаться дома.

«В реальности такое состояние угрожало бы жизни пациента», — отмечает исследователь.

В контролируемых клинических условиях большие языковые модели действительно могут на равных соревноваться с врачами в диагностике. Но в реальной жизни то, как люди общаются с чат-ботами, выглядит гораздо хаотичнее.

Правильный диагноз, но ошибочные действия

Второе исследование, проведённое специалистами медицинского комплекса Маунт-Синай в Нью-Йорке, выявило другую опасную тенденцию. Даже если алгоритм верно распознаёт заболевание, он часто не способен адекватно оценить степень его экстренности.

Исследователи «скормили» ботам массив медицинских кейсов. Выяснилось, что в 52% случаев, требовавших срочного медицинского вмешательства, нейросеть «недосортировывала» пациентов - то есть воспринимала их состояние как менее серьёзное, чем оно было на самом деле.

В одном из примеров чат-бот не посчитал нужным экстренно направить к врачу пациента с диабетическим кетоацидозом и надвигающейся дыхательной недостаточностью. Обе эти патологии представляют прямую угрозу для жизни и требуют немедленной госпитализации.

Гириш Надкарни, врач, исследователь в области ИИ и соавтор второй научной работы, подчёркивает:

«С классическими, описанными в учебниках экстренными ситуациями ChatGPT справляется хорошо».

Проблемы начинаются там, где сценарий становится более сложным и появляется фактор времени. Программа регулярно ошибается в обе стороны: она может как переоценить, так и критически недооценить время, которое есть у пациента до обращения за профессиональной помощью.

Что говорят разработчики

В самой OpenAI к выводам учёных относятся скептически. Представители компании заявили, что условия исследований не отражают того, как люди используют ChatGPT в реальности. Кроме того, разработчики подчеркнули, что в одной из работ тестировалась более старая версия языковой модели, а в последних обновлениях часть выявленных проблем уже якобы устранена.

Тем не менее, медицинское сообщество сходится в одном: какими бы продвинутыми ни казались алгоритмы, они всё ещё далеки от того, чтобы заменить клиническое мышление и профессиональный опыт живого врача. Доверять искусственному интеллекту в вопросах, где цена ошибки — человеческая жизнь, пока слишком рано.

Ещё по теме:

Мы в Telegram, на Дзен, в Google News и YouTube

ChatGPT и медицинские советы: почему нейросети пока нельзя доверять своё здоровье

Проблема формулировок

Правильный диагноз, но ошибочные действия

Что говорят разработчики

Дима Кутузов

Apple под давлением властей снизит комиссию в App Store для Китая до 25%

Как роботы в стиле ВАЛЛ-И делают улицы Техаса доступнее