Китайская компания DeepSeek сообщила о выпуске инновационной языковой модели DeepSeek-V3 с 685 миллиардами параметров. Архитектура этой нейросети базируется на подходе Mixture of Experts (MoE) с 256 экспертами, активация восьми из которых осуществляется при обработке каждого токена. Если сравнивать с предыдущей версией, новинка может взаимодействовать с намного большими объёмами данных, имеет расширенный словарный запас и полностью переработанную архитектуру.
Нейросеть DeepSeek-V3 показала невероятно высокие результаты в ходе тестов Aider Polyglot Benchmark, в процессе которых происходит оценка ИИ-моделей в решении 225 сложных задач на языках программирования C++, Go, Java, JavaScript, Python и Rust. В процессе тестирования китайская новинка смогла успешно решить 48,4% задач, оказавшись по этому показателю на втором месте в глобальном рейтинге.
Она уступила только новой версии модели o1-2024-12-17 от OpenAI с результатом 61,7%. При этом позади остались другие известные модели Claude-3-5-sonnet-20241022 (45,3%) и Gemini-exp-1206 (38,2%). Китайская нейросеть также достигла показателя в 98,7% в задачах на форматирование изменений в коде.
Соответствующие результаты были приведены в рейтинге Aider LLM Leaderboards. Помимо решения задач в сфере программирования, китайская модель DeepSeek-V3 также показала отличные мультимодальные возможности. В том числе, по словам экспертов, китайская разработка неплохо анализирует диаграммы, качественно обрабатывает различные научные тексты, понимает изображения, которые загружаются пользователями, и хорошо создаёт различные текстовые данные. На данный момент нейросеть можно скачать для тестирования с сайта chat.deepseek.com.
По словам китайских разработчиков, в качестве необычной особенности их нейросети выступает возможность её самоидентификации. Если пользователи взаимодействуют с моделью на английском языке и просят её представиться, то она заявляет, что является искусственным интеллектом, разработанным исключительно компанией DeepSeek. Ещё более интересным моментом является то, что если спросить её о том же на русском языке, то она заявит, что работает на основе архитектуры GPT-4.
Ещё по теме:
- Правительство Малайзии одобрило новые поиски пропавшего самолета MH370
- Elden Ring перенесли в… Excel
- Компания Apple подтвердила удаление VPN-сервисов из российской части магазина App Store