Siri присвоила «Иглз» 33 воображаемые победы в Супербоуле

Эта история началась с любопытного эксперимента Пола Кафаcиса (Paul Kafasis) из блога One Foot Tsunami. Он решил проверить, насколько хорошо Siri ориентируется в результатах Супербоула — самого масштабного ежегодного события в американском футболе. Кафаcис задал виртуальному ассистенту Apple простой вопрос по каждому из проведённых Супербоулов — с I по LX — и записал ответы. Казалось бы, задания проще не придумаешь, ведь информация о каждом из этих матчей является общедоступной и легко проверяемой.

Однако результаты оказались шокирующими даже для скептиков. Из 58 сыгранных Супербоулов Siri верно назвала победителя только в 20 случаях. Получается, точность ответа составила всего около 34%. Но ещё более примечательно то, как именно помощник ошибался. Наиболее курьёзная и одновременно неприятная ошибка — многократная приписка «Филадельфии Иглз» (Philadelphia Eagles) 33 побед, хотя на самом деле команда имеет всего один чемпионский титул в своей истории. Фактически, Siri очень часто давала «убедительно неверные» ответы: звучало всё складно, но по сути было не ближе к реальности, чем случайная угадайка.

Системные сбои и «умное» заблуждение

Печально, что это не разовые ошибки: в некоторых периодах (например, с Супербоула XVII по XXXII) Siri подряд выдавала 15 неправильных ответов. При этом она иногда демонстрировала «просветы» в виде нескольких правильных результатов подряд, но эти «светлые полосы» не спасли общую статистику.

В одном из случаев Siri предложила обратиться к ChatGPT, который тут же дал верный ответ. Этот эпизод наглядно показал, что встроенная «база знаний» Siri зачастую проигрывает более продвинутым ИИ-системам, которые опираются на большие модели и обучаются на огромных массивах данных.

Интересно, что Кафаcис проводил проверку на нескольких платформах Apple — iOS 18.2.1, бета-версии iOS 18.3 и macOS 14.7.2 — и везде сталкивался с похожими результатами. Это даёт возможность понять, что проблема не ограничивается одним-единственным релизом системы, а затрагивает всю экосистему Apple.

Грубер: «раньше было лучше, когда Siri просто молчала»

Вслед за публикацией Пола Кафаcиса журналист Джон Грубер из Daring Fireball решил проверить, как Siri ответит на другие спортивные вопросы. А для сравнения он задал аналогичные запросы ChatGPT, Kagi, DuckDuckGo и Google. Все альтернативные системы справились заметно лучше, а вот Siri продолжала «галлюцинировать» и путать факты.

Более того, Грубер напоминает, что в прежних итерациях (до внедрения Apple Intelligence и глубокой интеграции ChatGPT) Siri, не найдя точного ответа, чаще говорила «Я не знаю» и показывала список ссылок из поисковика. Там, по крайней мере, первым результатом мог быть пусть неполный, но всё же правдивый ответ. А вот новая Siri, пытаясь выглядеть уверенно, выдаёт заведомо ложные сведения. Грубер считает такой вариант худшим сценарием: ассистент звучит убедительно, но тем самым лишь вводит пользователя в заблуждение.

Почему это важно для Apple

Ошибка Siri в вопросах о самом популярном спортивном мероприятии США — это не просто забавный казус. На фоне активного развития ИИ-технологий внимание к голосовому помощнику Apple особенно высоко: считается, что Siri должна конкурировать с такими мощными системами, как ChatGPT и Claude. Однако нынешняя ситуация с ошибками при ответе на базовые вопросы ставит под сомнение готовность компании к настоящим «умным» диалогам.

Apple уже пообещала серьёзные улучшения в Siri, основанные на больших языковых моделях (LLM). Предположительно, компания может анонсировать «LLM Siri» в 2025 году на конференции WWDC, а выпустить в свет лишь весной 2026 года — вероятно, в одном из обновлений iOS 19. Такая Siri должна научиться вести больше похожих на человеческие диалогов, разбираться в контексте и показывать более высокий уровень «понимания». Но возникает вопрос: справится ли Apple с проблемой «убедительно ошибочных» ответов, которые сейчас остаются фундаментальной «болячкой» даже для более продвинутых ИИ-чат-ботов?

Проблема «галлюцинаций» и пути решения

Многие современные ИИ-модели, включая ChatGPT, склонны так называемым «галлюцинациям»: они придумывают факты, не опираясь на реальные источники. Siri в своей новой версии, по словам Грубера, повторяет ту же ошибку, но при этом не всегда выдерживает даже собственную логику — выдавая противоречивые ответы при одинаковом запросе.

Решение может лежать в синтезе нескольких подходов:

. Проверка фактов через более традиционные механизмы поиска (конечно, нужна чёткая интеграция с надёжными базами данных).

Мощная языковая модель для естественного взаимодействия с пользователем.
Система отказа от ответа при недостатке уверенности, что лучше промолчать, чем дать «правдоподобное, но неверное» сведение.

Что будет дальше?

Пока Siri делает «33 выигранных Супербоула» для «Иглз», пользователи могут справедливо задаваться вопросом, насколько ещё помощник ошибается в других сферах. Ведь если он не в состоянии корректно перечислить победителей самой известной спортивной лиги, значит, и во многих других областях стоит ждать аналогичных «багов».

Репутация Siri уже не раз страдала от критики, однако Apple всякий раз обещала улучшить качество и «интеллект» ассистента. Недавно появились сообщения, что внутри компании стартовали масштабные реформы подразделений, занимающихся ИИ. Инженеры должны интегрировать большие языковые модели таким образом, чтобы сохранить «фирменную» приватность Apple, но при этом приблизиться к опыту ChatGPT в части ответов и диалогов.

Насколько успешными окажутся эти усилия, мы узнаем не раньше 2025–2026 годов, когда на рынок должен выйти «LLM Siri». А пока пользователям остаётся быть настороже — и, возможно, проверять важные факты о Супербоуле с помощью более надёжных источников, будь то ChatGPT или привычный Google.

Ещё по теме:

Мы в Telegram, на Дзен, в Google News и YouTube

Siri присвоила «Иглз» 33 воображаемые победы в Супербоуле

Системные сбои и «умное» заблуждение

Грубер: «раньше было лучше, когда Siri просто молчала»

Почему это важно для Apple

Проблема «галлюцинаций» и пути решения

Что будет дальше?

Дима Кутузов

Американцы начали с серьёзной наценкой перепродавать на eBay смартфоны с установленным TikTok

TrueWidget 2: системная информация Mac на рабочем столе