Аналитическая компания Relum провела масштабное тестирование десяти популярных ИИ-чат-ботов и пришла к неожиданному результату. Разработка компании xAI, основанной Илоном Маском, оказалась не только самой устойчивой, но и продемонстрировала минимальное количество так называемых галлюцинаций, то есть фактических ошибок в генерации текста.
По данным из исследования, Grok допустил искажения информации только в 8% случаев. Для сравнения, у ChatGPT уровень недостоверных фрагментов достиг 35%, у Google Gemini — 38%. Это позволило Grok занять первую строчку в рейтинге, несмотря на меньшую известность по сравнению с другими участниками.
Оценка проводилась не только по числу ошибок. Специалисты также сравнивали стабильность работы, частоту сбоев, оценки пользователей и общий риск сбоя при корпоративном использовании.
По итогам всех тестов Grok получил риск-индекс 6 из 99, то есть оказался почти вне зоны риска. Чем выше этот показатель, тем больше вероятность ошибок, сбоев или некорректной работы.
ChatGPT в этом списке оказался на другом полюсе. У него — максимальный индекс риска, равный 99 баллам. Claude, Meta AI и некоторые другие модели также продемонстрировали высокие значения, что, по мнению Relum, ставит под сомнение их пригодность для задач, где требуется достоверность данных.
По данным исследования, около 65% компаний в США уже применяют ИИ-ассистентов в ежедневной деятельности. Примерно половина сотрудников призналась, что вводила в такие системы конфиденциальную корпоративную информацию. На этом фоне устойчивость модели к галлюцинациям становится важнее, чем популярность бренда, резюмируют авторы анализа.