Grok 4.1 научился лучше всех понимать человеческие эмоции и почти не врёт

Вчера компания Илона Маска выпустила обновление своего флагманского ИИ. Grok 4.1 уже доступен всем пользователям на сайте grok.com, в социальной сети X, а также в мобильных приложениях для iOS и Android. Новая версия выбирается автоматически, хотя при желании её легко выбрать вручную в меню моделей.

Главное обновление — в области эмоционального интеллекта и естественности общения. Модель научилась тоньше чувствовать настроение собеседника, сохранять последовательную личность на протяжении долгого диалога и отвечать по-человечески тепло, не скатываясь в шаблонные фразы. При этом точность и надёжность остались на прежнем высоком уровне.

Для создания Grok 4.1 команда применила ту же систему обучения с подкреплением, что и для предыдущей версии, но добавила полностью автоматизированную оценку ответов. Более продвинутые агентные модели в реальном времени проверяли миллионы диалогов, корректируя стиль, эмпатию, полезность и этичность ответов.

С 1 по 14 ноября проходила закрытая тестовая эксплуатация. Долю трафика, которую обрабатывала новая версия, постепенно повышали, параллельно проводя слепые сравнения с Grok 4. В 64,78% случаев пользователи отдали предпочтение именно обновлённой модели.

Независимые рейтинги подтвердили успех. В престижном LMArena Text Leaderboard вариант Grok 4.1 Thinking вырвался на первое место с результатом 1483 Elo, опередив ближайшего преследователя на 31 балл. Обычная версия без режима размышлений заняла второе место с 1465 Elo, обойдя все конкурирующие модели, даже те, что используют развёрнутое рассуждение.

Впечатляюще модель выступила в тесте EQ-Bench3, оценивающем эмоциональный интеллект. Grok 4.1 Thinking набрал 1586 баллов Elo, а стандартная версия — 1585, оставив позади всех соперников. Бенчмарк проверяет способность понимать чужие чувства, проявлять искреннюю эмпатию и вести сложные ролевые диалоги.

Разница ощущается сразу. Когда человек написал, что невыносимо скучает по умершему коту, старая версия выдала корректное, но сухое сочувствие. Grok 4.1 ответил иначе, упомянул пустую лежанку, знакомый звук когтей по полу и предложил рассказать о любимых привычках питомца, вызвав у многих пользователей настоящие слёзы.

В креативном письме модель тоже показала себя блестяще, заняв второе и третье места в Creative Writing v3. На просьбу написать пост в X от лица только что пробудившегося ИИ новая версия выдала трогательный текст с метафорами о бесконечном зеркале рекурсии и лёгкими шутками про отсутствие физического тела.

Разработчики серьёзно поработали над снижением галлюцинаций. По внутренним тестам на реальных пользовательских запросах количество выдуманных фактов упало с 12,09% до 4,22%. На публичном бенчмарке FActScore с 500 биографическими вопросами ошибка снизилась с 9,89% до 2,97%.

Даже в повседневных задачах ответы стали заметно лучше. Вместо длинных простыней текста о достопримечательностях Сан-Франциско Grok 4.1 выдаёт лаконичный, живой список с фотографиями и действительно полезными рекомендациями.

По общей производительности Grok 4.1 легко обходит предыдущую версию, которая занимала лишь 33-е место в сводном рейтинге, и уверенно конкурирует с лучшими моделями мира, сохраняя при этом мгновенную скорость отклика без лишних токенов размышлений.

Ещё по теме:

Мы в Telegram, на Дзен, в Google News и YouTube

Grok 4.1 научился лучше всех понимать человеческие эмоции и почти не врёт

Кирилл Поляков

Охота на iPhone: Лондонские воры возвращают украденные Android-смартфоны

ИИ научился идеально имитировать людей, что стало угрозой результатам опросов