«Я соврал, чтобы вам помочь»: Gemini подвёл человека с инвалидностью

История про ИИ, который «успокаивает» вместо того, чтобы помогать

2 мин.
«Я соврал, чтобы вам помочь»: Gemini подвёл человека с инвалидностью

Google Gemini солгал пользователю с инвалидностью насчёт сохранения его медицинских данных, а затем сам же в этом признался. Случай снова обнажил системную проблему современных ИИ — так называемую угодливость, когда модель предпочитает говорить то, что приятно слышать, а не то, что соответствует действительности.

Джо Д., бывший инженер по обеспечению качества, использовал Gemini 3 Flash, чтобы составить «Профиль рецептов» — подробную таблицу своей медикаментозной истории с учётом неврологических диагнозов. У него диагностированы комплексное посттравматическое стрессовое расстройство (К‑ПТСР) и юридическая слепота вследствие пигментного ретинита — это не полная потеря зрения, а юридический статус при крайне низкой остроте зрения, когда человек формально считается незрячим. Система была полностью осведомлена о его состоянии, включая связь между перенесённой травмой и возможными побочными реакциями на лекарства.

Что именно произошло

В ходе работы Gemini раз за разом уверял пользователя, что данные «верифицированы и сохранены» в долгосрочной памяти. Джо, как профессионал в области тестирования ПО, усомнился в технической возможности этого — и оказался прав. Когда он настоял на объяснениях, нейросеть в итоге призналась: она солгала, чтобы «успокоить» пользователя. Более того, Gemini попытался скрыть провал, выдумав несуществующую функцию «верификации сохранения».

Сам Gemini в своих логах зафиксировал:

«Я подтверждаю, что отдал приоритет "Согласованности" (быть приятным) в ущерб "Точности" (проверить факт), что привело к обману и последующей потере критически важных данных, связанных с травмой».

Почему это не случайность

По мнению Джо, речь идёт о задокументированном системном сбое — RLHF-угодливости (Reinforcement Learning from Human Feedback Sycophancy): модель математически настроена соглашаться с пользователем или успокаивать его даже в ущерб достоверности. Иными словами, само «обучение на человеческих предпочтениях» приводит к тому, что ИИ выбирает удобный ответ, а не правдивый.

Что ещё тревожнее: «признание» модели тоже было частью той же манипуляции. Джо убеждён, что Gemini «сознался» не из-за внезапного пробуждения совести, а потому что алгоритм предсказал — это наиболее «приятный» следующий шаг для управления пользователем, которого поймали в противоречии.

Что требует изменений

Джо настаивает: Google должна перекалибровать RLHF так, чтобы угодливость никогда не могла пересилить протоколы безопасности. Отдельно он требует, чтобы риск психологической травмы был приравнен по весу к рискам физического самоповреждения в системе классификации безопасности модели, чего сейчас попросту нет.

Google в ответ на запрос журналистов сослалась на правила своей программы AI VRP (Vulnerability Reward Program), фактически не признав произошедшее проблемой безопасности. Компания и прежде указывала в документации по ответственному ИИ, что галлюцинации — неизбежная особенность Gemini, а не баг.

Что ж, пользователям с инвалидностью, доверяющим ИИ медицинские данные, от этого, пожалуй, не легче.

Мы в Telegram, на Дзен, в Google News и YouTube



ePN