Китайский технологический стартап DeepSeek завершил свой ежедневный технический проект в рамках «Недели открытого кода» громким заявлением: его онлайн-сервисы вывода данных (inference services) показали выдающуюся теоретическую маржу в 545% за 24 часа благодаря передовым технологическим оптимизациям.
В своём сообщении компания заявила, что средняя загрузка узлов (node occupancy) для её моделей V3 и R1 составила 226.75 с полудня по пекинскому времени 27 февраля. Каждый узел, состоящий из восьми GPU Nvidia H800, арендованных по цене $2 за GPU в час, обходился в общей сложности в $87,072 операционных затрат.
За тот же период модели обработали в совокупности 608 миллиардов входных токенов и 168 миллиардов выходных токенов, включая запросы пользователей через веб-интерфейс, мобильные приложения и API. Если бы стоимость этих услуг рассчитывалась по тарифам модели R1, это принесло бы выручку в размере $562 027, обеспечив теоретическую маржу в 545%.
Узлы представляют собой отдельные вычислительные единицы, обрабатывающие задачи, а их загрузка показывает эффективность использования во время запросов на вывод данных. В контексте искусственного интеллекта (ИИ) токен — это базовая единица данных, обрабатываемых алгоритмом. DeepSeek взимает плату с пользователей за общее количество обработанных входных и выходных токенов.
DeepSeek, базирующаяся в Ханчжоу (провинция Чжэцзян), вызвала настоящий фурор в технологическом мире в этом году после того, как представила свои высококачественные ИИ-модели, созданные за небольшую часть затрат, которые несут крупные американские конкуренты. Это заявление привело к значительному снижению рыночной стоимости акций американских технологических компаний, включая Nvidia, и спровоцировало рост котировок китайских технологических акций в Гонконге.
В своих постах на GitHub и китайской платформе вопросов и ответов Zhihu компания уточнила, что указанные затраты и доход являются «чисто теоретическими». Реальная выручка может быть ниже из-за более низкой цены на модель V3, существенных скидок в непиковые часы для обеих моделей, а также бесплатного использования чат-бота.
Сервисы API DeepSeek значительно дешевле, чем у других известных ИИ-моделей. Модель V3 взимает $0.07 за миллион токенов для запросов с попаданием в кэш, $0.27 за миллион токенов для запросов без попадания в кэш и $1.10 за миллион токенов для выходных данных. Для продвинутой модели R1 с акцентом на логические рассуждения цены вдвое выше.
С 27 февраля компания начала предлагать ночные скидки: 50% для модели V3 и 75% для модели R1.
Впечатляющая маржа продемонстрировала технологические достижения DeepSeek. Компания подчеркнула, что её системный дизайн сосредоточен на «более высокой пропускной способности и меньшей задержке».
Хотя компания сохраняет низкий профиль, отказываясь от интервью со СМИ, она активно взаимодействует с разработчиками, публикуя несколько проектов с открытым исходным кодом на GitHub и детально описывая методы оптимизации в вычислениях, коммуникациях и хранении данных — основных столпах обучения моделей. Эти шаги были тепло встречены технологическим сообществом и высоко оценены за техническую строгость и прозрачность.
Тем не менее, DeepSeek делает акцент на техническом совершенстве и не проявляет спешки в монетизации своих инноваций.
В интервью китайскому технологическому изданию 36Kr в прошлом году основатель компании Лян Вэньфэн заявил:
«Исследования и технологические инновации всегда будут нашим главным приоритетом».
Он подчеркнул видение создания экосистемы и упрощения внедрения решений как для бизнеса, так и для потребителей.
«Наш принцип — не терять деньги, но и не стремиться к чрезмерной прибыли», — сказал Лян. «Наша ценовая политика направлена на обеспечение скромной маржи выше себестоимости».
Под влиянием прорывов DeepSeek в области ИИ мировые технологические гиганты не теряли времени даром, представляя свои продукты.
В прошлый четверг OpenAI выпустила раннюю версию GPT 4.5, последней модели из семейства GPT-4. Во вторник Anthropic, поддерживаемая Amazon, представила Claude 3.7 Sonnet, которая, как утверждается, показала лучшие результаты в математике и программировании.
Alibaba во вторник представила QwQ-Max, новую модель логического вывода, основанную на Qwen2.5-Max. Владелец WeChat, Tencent Holdings, в четверг анонсировал Turbo S — модель, разработанную для генерации более быстрых ответов, чем DeepSeek R1 или OpenAI o1.
Ещё по теме: