Китайская корпорация Alibaba расширила свою линейку Qwen2.5, добавив две новые модели искусственного интеллекта: Qwen2.5−7B-Instruct-1M и Qwen2.5−14B-Instruct-1M. Эти разработки, как и популярная платформа DeepSeek, обладают открытым исходным кодом. Их отличительная особенность — способность работать с контекстными окнами объёмом до 1 млн токенов, что делает их особенными среди всех существующих решений.
Новинки используют методику редкого внимания, концентрируясь только на самых значимых частях входящей информации. Это позволяет моделям обрабатывать данные такого объёма в 3-7 раз быстрее, чем при использовании традиционных технологий, а также генерировать до 8000 токенов на выходе.
Разработчики подчёркивают, что для такого подхода моделям требуется выделять наиболее информативные фрагменты контекста, что является довольно сложной задачей, недоступной многим другим нейросетям.

По словам команды, тестирование показало, что обе модели успешно извлекают скрытые данные из текстов объёмом до 1 млн токенов, демонстрируя минимальные погрешности при использовании 7B-версии.
Эти решения превосходят существующие аналоги, рассчитанные на 128 тыс. токенов, особенно при работе с длинными последовательностями, превышающими 64 тыс. токенов. Модель Qwen2.5−14B-Instruct-1M, в частности, уверенно опережает GPT-4o-mini в ряде тестов, предоставляя пользователям надёжный инструмент с открытым кодом для задач, требующих обработки больших объёмов данных.
Для тестирования новых решений Alibaba предлагает воспользоваться интерфейсом Qwen Chat, который напоминает ChatGPT. Эта платформа позволяет работать не только с новыми моделями, но и с другими продуктами компании. Журналисты отмечают, что наряду с решениями от DeepSeek, Qwen представляет собой серьёзного конкурента американским разработчикам, предлагая более доступные по стоимости и не менее функциональные инструменты.
Ещё по теме: