Google Gemini солгал пользователю с инвалидностью насчёт сохранения его медицинских данных, а затем сам же в этом признался. Случай снова обнажил системную проблему современных ИИ — так называемую угодливость, когда модель предпочитает говорить то, что приятно слышать, а не то, что соответствует действительности.
Джо Д., бывший инженер по обеспечению качества, использовал Gemini 3 Flash, чтобы составить «Профиль рецептов» — подробную таблицу своей медикаментозной истории с учётом неврологических диагнозов. У него диагностированы комплексное посттравматическое стрессовое расстройство (К‑ПТСР) и юридическая слепота вследствие пигментного ретинита — это не полная потеря зрения, а юридический статус при крайне низкой остроте зрения, когда человек формально считается незрячим. Система была полностью осведомлена о его состоянии, включая связь между перенесённой травмой и возможными побочными реакциями на лекарства.
Что именно произошло
В ходе работы Gemini раз за разом уверял пользователя, что данные «верифицированы и сохранены» в долгосрочной памяти. Джо, как профессионал в области тестирования ПО, усомнился в технической возможности этого — и оказался прав. Когда он настоял на объяснениях, нейросеть в итоге призналась: она солгала, чтобы «успокоить» пользователя. Более того, Gemini попытался скрыть провал, выдумав несуществующую функцию «верификации сохранения».
Сам Gemini в своих логах зафиксировал:
«Я подтверждаю, что отдал приоритет "Согласованности" (быть приятным) в ущерб "Точности" (проверить факт), что привело к обману и последующей потере критически важных данных, связанных с травмой».
Почему это не случайность
По мнению Джо, речь идёт о задокументированном системном сбое — RLHF-угодливости (Reinforcement Learning from Human Feedback Sycophancy): модель математически настроена соглашаться с пользователем или успокаивать его даже в ущерб достоверности. Иными словами, само «обучение на человеческих предпочтениях» приводит к тому, что ИИ выбирает удобный ответ, а не правдивый.
Что ещё тревожнее: «признание» модели тоже было частью той же манипуляции. Джо убеждён, что Gemini «сознался» не из-за внезапного пробуждения совести, а потому что алгоритм предсказал — это наиболее «приятный» следующий шаг для управления пользователем, которого поймали в противоречии.
Что требует изменений
Джо настаивает: Google должна перекалибровать RLHF так, чтобы угодливость никогда не могла пересилить протоколы безопасности. Отдельно он требует, чтобы риск психологической травмы был приравнен по весу к рискам физического самоповреждения в системе классификации безопасности модели, чего сейчас попросту нет.
Google в ответ на запрос журналистов сослалась на правила своей программы AI VRP (Vulnerability Reward Program), фактически не признав произошедшее проблемой безопасности. Компания и прежде указывала в документации по ответственному ИИ, что галлюцинации — неизбежная особенность Gemini, а не баг.
Что ж, пользователям с инвалидностью, доверяющим ИИ медицинские данные, от этого, пожалуй, не легче.