Далеко не все популярные ИИ-модели смогли успешно пройти простые тесты на деменцию

По результатам недавно проведённого исследования эксперты обнаружили, что некоторые популярные нейросети имеют явные признаки начальных когнитивных нарушений, что было выявлено в ходе общедоступных тестов на деменцию. При этом устаревшие ИИ-модели справляются с подобными задачами намного хуже, что отчасти напоминает возникновение возрастных изменений у многих людей.

В процессе проведения исследования эксперты захотели оценить когнитивные возможности наиболее востребованных сейчас в мире текстовых нейросетей. В эксперименте приняли участие GPT-4 и GPT-4o от OpenAI, Claude 3.5 от Anthropic и версии 1.0 и 1.5 Gemini от Alphabet. Тестирование проводилось с применением Монреальского когнитивного теста (MoCA), который обычно используется, чтобы обнаружить когнитивные нарушения и начальные признаки деменции у людей пожилого возраста.

В ходе проведения теста даётся оценка разным способностям, в том числе вниманию, памяти, языковым навыкам, зрительно-пространственным способностям, исполнительным функциям. Максимальный балл, который можно получить за тест, составляет 30 пунктов. При этом, если человек получает 26 и более баллов, это считается нормальным.

В процессе проведения тестирования наилучшие результаты были показаны у нейросети GPT-4o, которая набрала 26 баллов из 30. GPT-4 и Claude смогли получить по 25 баллов. Хуже всего справилась Gemini 1.0 — всего 16 баллов из 30 возможных.

Учёные заявили, что все без исключения нейросети показали плохие результаты при решении задач на зрительно-пространственные навыки и исполнительные функции. В частности, ИИ-модели не смогли соединить последовательности чисел и букв в порядке возрастания, а также успешно пройти тест с рисованием циферблата часов. Модели линейки Gemini, помимо всего прочего, также не смогли справиться с задачей на отсроченное воспроизведение последовательности из пяти слов.

По словам авторов эксперимента, несмотря на серьёзные успехи в последние годы в сфере развития моделей искусственного интеллекта, в том числе в сфере медицинской диагностики, обнаруженные слабые места наглядно демонстрируют наличие значительных ограничений в применении чат-ботов в клинической практике. Поэтому есть серьёзные сомнения, чтобы уже сейчас заменять врачей искусственным интеллектом.

Ещё по теме: