Старший инженер Netflix Теджас Чопра разработал открытый инструмент Project Headroom, который урезает раздутые запросы к языковым моделям до полезной сути. Пользователи уже сократили расходы примерно на $700 тыс. и освободили около 200 млрд токенов. По оценке самого автора, до 90% содержимого некоторых запросов модели вовсе не нужны для работы.
Компании наперегонки подключают ИИ к репозиториям, базам данных, логам и внутренним сервисам. Существенная доля денег уходит не на полезную работу моделей, а на обработку гигантских массивов данных, к которым нейросеть зачастую даже не обращается.
Многие команды живут по принципу «чем больше контекста дать модели, тем лучше результат», и в контекстное окно отправляются куски кода, документация, журналы событий, ответы API и массивы служебной информации.
Главными виновниками перерасхода становятся раздутые JSON-структуры, повторяющиеся данные из баз, громоздкие схемы API, служебные поля и многочисленные метаданные, попадающие в запрос практически автоматически. Сам Project Headroom формально не относится к продуктовой линейке Netflix, но несколько внутренних команд компании уже применяют инструмент в работе. Репозиторий собрал около 2000 звёзд на GitHub и свыше 120 форков.
Любопытно, что идея родилась не в корпоративной лаборатории. Поводом стал личный счёт разработчика на $287 за использование Claude Sonnet в домашнем проекте. Провайдер брал около $3 за миллион входных токенов или $6 при превышении лимита контекстного окна в 200 тыс. токенов.
На практике расходы росли значительно быстрее ожидаемого. Эту мысль подтверждают и исследования. В одной из научных работ 2025 года было показано, что обработка пользовательского ввода способна формировать около 76% общего расхода токенов.
Headroom запускается локально на компьютере инженера в виде прокси-сервиса и анализирует информацию ещё до её отправки поставщику модели. Под проверку попадают логи, история переписки с агентом, результаты работы инструментов, файлы проекта, данные из RAG-поиска.
Первым в цепочке работает модуль CacheAligner, который ищет различия между уже отправленными и новыми данными. Если изменения минимальны, система передаёт только обновлённые части вместо полной копии контекста.
После этого вступают в дело специализированные компрессоры. Для программного кода применяется AST-компрессор, структурированные данные проходят через JSON-компрессор, веб-разметкой занимается DOM-компрессор. Финальная стадия напоминает работу современных архиваторов. Механизм Compress Cache and Retrieve оставляет внутри запроса специальные маркеры вместо удалённых фрагментов.
Если модели всё же понадобится полный исходный блок, агент сможет запросить его отдельно через MCP-инструмент Headroom. Оригинальная информация хранится локально в Redis или SQLite.
Project Headroom предлагает простую, но неожиданно эффективную идею. Вместо бесконечного расширения контекстных окон и покупки всё более дорогих тарифов он предлагает сначала разобраться, что вообще отправляется модели. Судя по первым результатам, огромное количество токенов тратится не на интеллект, а на цифровой шум, который годами накапливался в инструментах разработки и незаметно перекочевал в эпоху ИИ.