開源・2026-06-20

GitHub 竄紅的 headroom：把工具輸出、日誌與 RAG 片段先壓縮再餵給模型，省 6 到 9 成 token

開源專案 headroom 近日登上 GitHub 趨勢榜，解決的是一個很多人有感的痛點：餵給大型模型的內容太肥、太燒 token。它的做法是在工具輸出、日誌、檔案與 RAG（檢索增強生成）片段這些東西進到模型之前，先做一輪壓縮，把冗餘資訊去掉，宣稱能減少 60% 到 95% 的 token，而答案品質維持不變。

理解它的價值，得先知道 token 就是錢與速度。呼叫商用模型 API 按 token 計費，輸入越長帳單越高；同時上下文越長，處理越慢、也越容易稀釋掉關鍵資訊。實務上，工具回傳的原始日誌、檢索回來的大段文件，往往塞滿重複與無關內容，headroom 等於在入口處幫你把這些水分擰乾，再交給模型。

它提供三種用法，覆蓋了不同接法：可以當函式庫直接嵌進程式、可以當代理（proxy）攔在中間自動處理，也可以當 MCP server 接進支援該協定的工具鏈。這種「一個能力、多種接法」的設計，讓人不必大改架構就能用上，是它能快速竄紅的原因之一。對正在被 API 帳單嚇到的開發者，這類省 token 工具的吸引力很直接。

呼應本站近期常談的成本焦慮，這條很對胃口：與其一味換更大的模型，不如先把餵進去的東西瘦身。把確定性的壓縮苦工交給工具，把昂貴的推理留給真正需要的部分，正是省錢又不掉品質的務實思路。

歸剛點評｜token 就是錢與速度。與其換更大的模型，不如先把餵進去的內容瘦身。把壓縮這種確定性苦工交給工具、推理留給模型，是省成本又不掉品質的務實路線。

來源：GitHub

歸剛誒AI

GitHub 竄紅的 headroom：把工具輸出、日誌與 RAG 片段先壓縮再餵給模型，省 6 到 9 成 token

同期其他文章