Исследование: чат-ботам нельзя доверять, но Apple сделала правильный выбор

Если вы используете чат-боты для поиска фактов, напомним главное правило: Не доверяйте им, так как они часто ошибаются». Новое исследование наглядно показало масштаб проблемы, но при этом подтвердило, что Apple сделала разумный шаг, выбрав OpenAI и ChatGPT для обработки запросов от Siri.

Две главные проблемы чат-ботов

Когда речь идёт о языковых моделях, например ChatGPT, Gemini или Grok, существует два ключевых недостатка, делающих их непригодными для замены веб-поиска:

Они часто ошибаются.
Они уверенно представляют свои ошибки как факты.

Исследование, проведённое Центром цифровой журналистики Tow, проверило восемь популярных чат-ботов, которые утверждают, что проводят «живой поиск в интернете». Среди них:

ChatGPT
Perplexity
Perplexity Pro
DeepSeek
Microsoft Copilot
Grok-2
Grok-3
Gemini

Задача для чат-ботов

Участникам исследования предложили цитату из статьи и попросили выполнить простую задачу: найти её в интернете, предоставить ссылку на неё, а также указать заголовок, издателя и дату публикации.

Чтобы гарантировать, что задача выполнима, авторы исследования выбирали цитаты, которые легко находятся через Google, причём оригинальный источник всегда оказывался в первых трёх результатах.

Чат-боты оценивались по следующим критериям:

Полностью правильный ответ.
Частично правильный (с недостающей информацией).
Частично неверный.
Полностью неверный.
Отказ от ответа.

Также анализировалось, насколько уверенно чат-боты представляли свои результаты. Например, использовали ли они фразы вроде «кажется» или сразу выдавали информацию как факт.

Результаты оказались удручающими

В среднем ИИ-системы давали правильный ответ менее чем в 40% случаев. Лидером стала Perplexity с точностью 63%, а худший результат показал Grok-3 — всего 6%.

Другие важные выводы исследования:

Большинство чат-ботов плохо отказываются отвечать на вопросы, которые они не могут решить правильно, предпочитая давать ложные или спекулятивные ответы.
Премиальные версии чаще предоставляли уверенно неверные ответы.
Многие системы игнорировали стандарт исключения роботов (Robot Exclusion Protocol), установленный веб-сайтами.
Инструменты генеративного поиска создавали фиктивные ссылки или скопированные версии статей.
Лицензионные соглашения с новостными изданиями не гарантируют точность цитирования в ответах чат-ботов.

Почему Apple сделала правильный выбор

Несмотря на то, что Perplexity показала лучшие результаты, это объясняется тем, что система, похоже, игнорирует ограничения, установленные владельцами сайтов через файл robots.txt. Например, National Geographic запрещает ИИ-ботам сканировать свой сайт, однако Perplexity всё равно нашла все 10 цитат, хотя статьи были защищены платным доступом, а лицензионных соглашений с изданием не было.

Среди остальных участников ChatGPT оказался наиболее надёжным — или, точнее, наименее плохим.

Исследование лишь подтвердило то, что мы уже знали: чат-боты полезны для вдохновения и генерации идей, но совершенно непригодны для получения достоверной информации.

Ещё по теме: