По результатам тестирования MERA, оценивающего AI-модели, разработка Сбера GigaChat 2 MAX заняла первое место среди аналогов, работающих на русском языке. В международных рейтингах обновлённые модели продемонстрировали высокие результаты и по ряду характеристик опередили GPT4o, DeepSeek-V3, LLaMA 70B и Qwen 2.5.

GigaChat 2.0 получила серьёзные улучшения, что позволяет корпоративным пользователям быстрее справляться с рабочими задачами и реализовывать масштабные проекты.

  • Версия GigaChat 2 MAX стала ещё мощнее и теперь уверенно обходит многие зарубежные аналоги в решении задач на русском языке.
  • Модель GigaChat 2 Pro сравнима по качеству с предыдущей версией MAX, при этом лучше подходит для задач, требующих креативного подхода и точности, а также менее требовательна к вычислительным ресурсам.
  • Базовая версия GigaChat 2 Lite теперь по уровню работы сопоставима с предыдущей версией Pro, что делает её удобным инструментом для быстрого и экономичного решения сложных задач.

Пользователи могут продолжить работу с моделями первого поколения или протестировать обновлённую линейку перед переходом на новые версии. Чтобы выбрать оптимальную модель и адаптировать её под задачи бизнеса, не требуется глубоких знаний в программировании. Весь модельный ряд доступен через облако по API, а также может быть развёрнут внутри компании.

Андрей Белёвцев, старший вице-президент и руководитель блока «Технологическое развитие» Сбербанка, отметил, что выпуск GigaChat 2.0 стал не просто улучшением характеристик, а важным шагом в развитии русскоязычных языковых моделей. По его словам, Сбер создал продукт, способный конкурировать с ведущими мировыми решениями, а в задачах на русском языке модель превосходит большинство из них.

Эксперт подчеркнул, что мощные отечественные нейросети играют стратегическую роль для компаний, работающих в России. Сейчас GigaChat уже используют 15 тыс. внешних клиентов, а расширенные возможности обновлённой линейки позволят ещё большему числу компаний эффективнее справляться с различными задачами.

Расширенные возможности для создания AI-агентов

GigaChat 2.0 открывает новые перспективы для бизнеса, позволяя разрабатывать более продуктивных автономных помощников, способных не только анализировать информацию, но и принимать самостоятельные решения в сложных ситуациях. Модели продвинулись в области математики, естественных и гуманитарных наук, улучшили навыки программирования и теперь генерируют более качественный код.

Это даёт возможность использовать GigaChat 2.0 для создания AI-агентов, которые могут решать многокомпонентные задачи без постоянного вмешательства человека. Для их разработки на Python и JS доступен SDK LangChain, с которым нейросеть полностью совместима. Необходимые пакеты для интеграции можно найти в публичном репозитории GigaChain.

Расширенный контекст обработки

Обновлённые модели способны удерживать в памяти в четыре раза больше информации, что делает их более эффективными при анализе длинных запросов и сложных текстов. Ранее система обрабатывала до 48 страниц стандартного текста, теперь этот объём увеличен почти до 200 страниц.

Поэтому можно создавать чат-ботов с глубоким пониманием контекста, которые могут работать с большими массивами данных и давать более точные и развернутые ответы.

Улучшенные показатели в решении рабочих задач

GigaChat 2.0 в два раза точнее выполняет пользовательские инструкции, что повышает его полезность в бизнес-процессах. Точность ответов на вопросы выросла на 25%, а соблюдение заданных условий и форматов стало более строгим, что позволяет эффективно использовать нейросеть для выполнения различных задач — от подготовки юридических документов до анализа клиентских запросов и генерации отчетов.

Лидерство среди мировых AI-моделей

По результатам тестирования MERA, GigaChat 2 MAX стал лидером среди моделей, работающих на русском языке. В международных бенчмарках MMLU, оценивающих знания на русском и английском, обновлённая линейка показала уровень, сравнимый с ведущими мировыми решениями, а в ряде случаев превзошла их. Особенно впечатляющие результаты показала флагманская версия.

По сравнению с DeepSeek-V3, Qwen2.5 (модель Qwen-2.5-75b), GPT4o и LLaMA 70B, сберовская GigaChat 2 MAX лучше справляется с фактологическими вопросами на русском языке и точнее следует заданному формату. Также модель опережает конкурентов в тестах, оценивающих способности к программированию (HumanEval), показывает более глубокое понимание точных наук.


Ещё по теме: