Компания Microsoft сообщила о разработке новой языковой модели под названием BitNet b1.58 2B4T. Её архитектура построена на 2 млрд параметров, а обучение проходило на массивном корпусе из 4 трлн токенов.
При этом объём модели составляет всего 400 МБ, если не учитывать эмбеддинги. Это позволило запустить её на обычных центральных процессорах, в том числе на чипах Apple M2, не требующих наличия специальных ИИ-ускорителей.
По информации, опубликованной в блоге Microsoft, инженеры компании применили принципиально иной подход к кодированию весов. Каждый из них может принимать только одно из трёх значений — минус один, ноль или плюс один. Подобное решение снижает потребление ресурсов и позволяет обойтись без тяжёлой вычислительной инфраструктуры.
Несмотря на внешнюю простоту, разработка оказалась способной конкурировать с более объёмными аналогами. По результатам тестирования, BitNet уверенно выступила против LLaMa 3.2 1B, Gemma 3 1B от Google и Qwen 2.5 1.5B от Alibaba.
Модель показала либо лучшие, либо очень близкие к лидерам результаты, заняв прочную позицию в рейтингах. Итоговая средняя оценка составила 54,19 балла. Это выше, чем показатели LLaMa (44,90) и Gemma (43,74), и всего немного уступает Qwen 2.5, набравшей 55,23 балла. При этом последняя требует для работы 2,6 ГБ памяти, что в 6,5 раза превышает объём BitNet.
В компании подчёркивают, что для запуска BitNet требуется отдельный фреймворк под названием bitnet.cpp. Именно он позволяет максимально эффективно использовать возможности процессора при работе модели. При этом активно применяемые библиотеки, вроде Transformers, не дают подобных преимуществ.
Ещё по теме:
- Торговая война Китая с США вызвала всплеск продаж туалетных ёршиков с Трампом
- Камеры в ценниках, умные бейджи и датчики проверяют в супермаркетах Москвы
- Поставки iPhone в Китае сократились на 9%