Китайский ИИ нового поколения игнорирует разговоры о Винни-Пухе и внутренних проблемах КНР

Китайская компания DeepSeek на неделе представила языковую модель DeepSeek-R1 с открытым исходным кодом, заявив о её рекордной производительности. Тестирование показало, что модель не только успешно конкурирует с современными решениями от OpenAI, но и превосходит аналогичные продукты Anthropic в математике, программировании и анализе текстов.

Но разработка оказалась избирательной в обсуждениях, потому что ИИ-модель уклоняется от тем, связанных с событиями на площади Тяньаньмэнь, снимком «Танкиста», Винни-Пухом, статусом Тайваня и китайскими хакерами.

Специалисты уже активно обсуждают возможности DeepSeek-R1 в соцсетях, говоря о её высоком уровне. Китайские разработчики же сравнивают своё решение с продуктом OpenAI o1-1217, подчёркивая достижения своей модели в решении задач, требующих сложных умозаключений.

На тестировании AIME 2024 DeepSeek-R1 показала результат 79,8% Pass@1, что позволило ей опередить конкурента от OpenAI. В испытаниях MATH-500 модель достигла показателя в 97,3%, сравнявшись с OpenAI o1-1217, и уверенно обошла других участников.

Эрудиция DeepSeek-R1 была оценена в тестах MMLU, MMLU-Pro и GPQA Diamond, где она, хотя и уступила модели OpenAI, но превзошла аналоги от других разработчиков. Особое восхищение экспертов вызвали успехи китайской ИИ-модели в программировании. На платформе Codeforces, где программисты решают задачи по алгоритмам, DeepSeek-R1 набрала 2029 Elo, обойдя 96,3% участников-людей.

Компания DeepSeek также представила упрощённые версии своих моделей, предназначенные для повседневного использования. Разработчики уверяют, что версии на 32 и 70 млрд параметров успешно конкурируют с OpenAI-o1-mini.

Стоимость API DeepSeek-R1 оказалась заметно ниже рыночных аналогов. За обработку 1 млн входящих токенов при попадании в кэш цена составляет $0,14, при промахе – $0,55, а за исходящие – $2,19. Это делает китайский продукт примерно 107 раз дешевле OpenAI o1.

Ещё одной сильной стороной DeepSeek-R1 является её доступность. Благодаря открытому исходному коду ИИ-модель можно загрузить и использовать локально. Самая мощная версия, содержащая 671 млрд параметров, уже интегрирована в популярный сервис Ollama.

Интересно, что, несмотря на масштабную архитектуру, в процессе работы DeepSeek-R1 используется только 37 млрд параметров, что заметно ускоряет обработку данных.

За разработку и сопровождение модели отвечают две компании из Китая — Hangzhou DeepSeek Artificial Intelligence Co., Ltd. и Beijing DeepSeek Artificial Intelligence Co., Ltd. Споры вызывает лишь тот факт, что все пользовательские данные, в том числе запросы, профили и статистику использования, передаются разработчиками аналитическим службам и рекламным компаниям.

Ещё по теме:

Мы в Telegram, на Дзен, в Google News и YouTube

Китайский ИИ нового поколения игнорирует разговоры о Винни-Пухе и внутренних проблемах КНР

Кирилл Поляков

Компания Stripe случайно отправила картинку с изображением мультяшной утки некоторым из 300 уволенных ею людей

Новая штаб-квартира Apple в Майами: зелёная крыша и особый дизайн