Большинство ИИ с трудом справляется с чтением времени, ошибаясь в 75% случаев

Современные генеративные ИИ могут выполнять задачи, которые ещё недавно казались фантастикой, но большинство из них всё ещё сталкиваются с трудностями при выполнении базовых запросов. Например, чтение аналоговых часов и календарей остаётся серьёзной проблемой для многих систем искусственного интеллекта. Новое исследование, проведённое учёными из Эдинбургского университета, выявило, что ИИ-модели правильно интерпретируют циферблаты менее чем в 25% случаев.

Как проводилось исследование?

Команда исследователей протестировала несколько известных мультимодальных языковых моделей на их способность отвечать на вопросы, основанные на изображениях аналоговых часов и календарей. В тестировании участвовали следующие системы:

Gemini 2.0
Claude 3.5 Sonnet
Llama 3.2-11B-Vision-Instruct
Qwen2-VL7B-Instruct
MiniCPM-V-2.6
GPT-4o и GPT-o1

Исследователи использовали различные типы изображений часов: с римскими цифрами, со стрелками разной формы, с секундной стрелкой и без неё, а также с циферблатами разных цветов. Для календарей были задействованы изображения за последние 10 лет, на основе которых модели должны были отвечать на вопросы вроде:

— «Какой день недели выпадает на Новый год?»
— «Какая дата соответствует 153-му дню года?»

Результаты тестов

Часы:

Общая точность всех систем составила менее 25%.
Особенно сложными оказались часы с римскими цифрами и стилизованными стрелками.
Удаление секундной стрелки не улучшило результаты, что указывает на проблемы с определением положения стрелок и интерпретацией углов на циферблате.

Календари:

Даже самые успешные модели ошибались в 20% случаев.
Лидером среди участников стал GPT-o1, который справился с календарными вопросами с точностью 80%.

Gemini 2.0 показал наилучшие результаты в тестах с часами, хотя его точность всё равно оставалась ниже ожиданий.

Пробелы в навыках

По словам руководителя исследования Рохита Саксены, большинство людей с раннего возраста умеют определять время по часам и пользоваться календарями. Однако современные ИИ-системы демонстрируют значительные пробелы в этих базовых навыках.

«Наши выводы подчёркивают серьёзный разрыв в способности ИИ выполнять задачи, которые для людей являются довольно простыми. Эти недостатки необходимо устранить, если мы хотим успешно интегрировать ИИ в чувствительные ко времени реальные приложения, такие как планирование, автоматизация и вспомогательные технологии», — отметил Саксена.

Его коллега Арьо Гема добавил:

«Исследования ИИ сегодня часто акцентируются на сложных задачах логического мышления, но парадоксально, что многие системы всё ещё испытывают трудности с более простыми повседневными задачами».

Контекст проблемы

Это не первое исследование, показывающее ограниченные возможности современных ИИ. Например, Tow Center for Digital Journalism изучил восемь поисковых ИИ-систем и обнаружил, что они дают неточные ответы в 60% случаев. Худшим участником оказался Grok-3, который был неточен в 94% случаев.

Будущее исследования

Результаты исследования будут представлены на Международной конференции по обучению представлениям (ICLR) в Сингапуре 28 апреля.

Несмотря на впечатляющие достижения в области сложного рассуждения и анализа данных, современные ИИ всё ещё сталкиваются с проблемами при выполнении простейших задач. Чтение аналоговых часов и календарей — лишь пара примеров из того, как далеко ИИ должен продвинуться, чтобы стать надёжным помощником в повседневной жизни.

Ещё по теме:

Мы в Telegram, на Дзен, в Google News и YouTube

Большинство ИИ с трудом справляется с чтением времени, ошибаясь в 75% случаев

Как проводилось исследование?

Результаты тестов

Пробелы в навыках

Контекст проблемы

Будущее исследования

Дима Кутузов

Жизнь без Windows: Huawei готовит «ИИ ПК» в ответ на санкции США

Этот день в истории Apple: Microsoft получает судебный иск, где обвиняется в краже Mac OS