Современные генеративные ИИ могут выполнять задачи, которые ещё недавно казались фантастикой, но большинство из них всё ещё сталкиваются с трудностями при выполнении базовых запросов. Например, чтение аналоговых часов и календарей остаётся серьёзной проблемой для многих систем искусственного интеллекта. Новое исследование, проведённое учёными из Эдинбургского университета, выявило, что ИИ-модели правильно интерпретируют циферблаты менее чем в 25% случаев.
Как проводилось исследование?
Команда исследователей протестировала несколько известных мультимодальных языковых моделей на их способность отвечать на вопросы, основанные на изображениях аналоговых часов и календарей. В тестировании участвовали следующие системы:
- Gemini 2.0
- Claude 3.5 Sonnet
- Llama 3.2-11B-Vision-Instruct
- Qwen2-VL7B-Instruct
- MiniCPM-V-2.6
- GPT-4o и GPT-o1
Исследователи использовали различные типы изображений часов: с римскими цифрами, со стрелками разной формы, с секундной стрелкой и без неё, а также с циферблатами разных цветов. Для календарей были задействованы изображения за последние 10 лет, на основе которых модели должны были отвечать на вопросы вроде:
— «Какой день недели выпадает на Новый год?»
— «Какая дата соответствует 153-му дню года?»
Результаты тестов
Часы:
- Общая точность всех систем составила менее 25%.
- Особенно сложными оказались часы с римскими цифрами и стилизованными стрелками.
- Удаление секундной стрелки не улучшило результаты, что указывает на проблемы с определением положения стрелок и интерпретацией углов на циферблате.
Календари:
- Даже самые успешные модели ошибались в 20% случаев.
- Лидером среди участников стал GPT-o1, который справился с календарными вопросами с точностью 80%.
Gemini 2.0 показал наилучшие результаты в тестах с часами, хотя его точность всё равно оставалась ниже ожиданий.
Пробелы в навыках
По словам руководителя исследования Рохита Саксены, большинство людей с раннего возраста умеют определять время по часам и пользоваться календарями. Однако современные ИИ-системы демонстрируют значительные пробелы в этих базовых навыках.
«Наши выводы подчёркивают серьёзный разрыв в способности ИИ выполнять задачи, которые для людей являются довольно простыми. Эти недостатки необходимо устранить, если мы хотим успешно интегрировать ИИ в чувствительные ко времени реальные приложения, такие как планирование, автоматизация и вспомогательные технологии», — отметил Саксена.
Его коллега Арьо Гема добавил:
«Исследования ИИ сегодня часто акцентируются на сложных задачах логического мышления, но парадоксально, что многие системы всё ещё испытывают трудности с более простыми повседневными задачами».
Контекст проблемы
Это не первое исследование, показывающее ограниченные возможности современных ИИ. Например, Tow Center for Digital Journalism изучил восемь поисковых ИИ-систем и обнаружил, что они дают неточные ответы в 60% случаев. Худшим участником оказался Grok-3, который был неточен в 94% случаев.
Будущее исследования
Результаты исследования будут представлены на Международной конференции по обучению представлениям (ICLR) в Сингапуре 28 апреля.
Несмотря на впечатляющие достижения в области сложного рассуждения и анализа данных, современные ИИ всё ещё сталкиваются с проблемами при выполнении простейших задач. Чтение аналоговых часов и календарей — лишь пара примеров из того, как далеко ИИ должен продвинуться, чтобы стать надёжным помощником в повседневной жизни.
Ещё по теме: