ИИ от Маска стал самым точным. Grok обошёл ChatGPT и Gemini по уровню достоверности ответов

По итогам всех тестов Grok получил риск-индекс 6 из 99

1 мин.
ИИ от Маска стал самым точным. Grok обошёл ChatGPT и Gemini по уровню достоверности ответов

Аналитическая компания Relum провела масштабное тестирование десяти популярных ИИ-чат-ботов и пришла к неожиданному результату. Разработка компании xAI, основанной Илоном Маском, оказалась не только самой устойчивой, но и продемонстрировала минимальное количество так называемых галлюцинаций, то есть фактических ошибок в генерации текста.

По данным из исследования, Grok допустил искажения информации только в 8% случаев. Для сравнения, у ChatGPT уровень недостоверных фрагментов достиг 35%, у Google Gemini — 38%. Это позволило Grok занять первую строчку в рейтинге, несмотря на меньшую известность по сравнению с другими участниками.

Оценка проводилась не только по числу ошибок. Специалисты также сравнивали стабильность работы, частоту сбоев, оценки пользователей и общий риск сбоя при корпоративном использовании. 

По итогам всех тестов Grok получил риск-индекс 6 из 99, то есть оказался почти вне зоны риска. Чем выше этот показатель, тем больше вероятность ошибок, сбоев или некорректной работы.

ChatGPT в этом списке оказался на другом полюсе. У него — максимальный индекс риска, равный 99 баллам. Claude, Meta AI и некоторые другие модели также продемонстрировали высокие значения, что, по мнению Relum, ставит под сомнение их пригодность для задач, где требуется достоверность данных.

По данным исследования, около 65% компаний в США уже применяют ИИ-ассистентов в ежедневной деятельности. Примерно половина сотрудников призналась, что вводила в такие системы конфиденциальную корпоративную информацию. На этом фоне устойчивость модели к галлюцинациям становится важнее, чем популярность бренда, резюмируют авторы анализа.

Мы в Telegram, на Дзен, в Google News и YouTube



ePN