研究突破・2026-06-26

「講短一點、省 token」真的有省嗎？CAVEWOMAN 給了兩面答案

「講短一點、把文法丟掉、省下 token」——這種被戲稱為「穴居人風格」的省錢寫法，常被推薦用來壓低推論成本。但它到底有沒有省到，一篇叫 CAVEWOMAN 的研究說：得看你壓縮的是哪一邊，使用者的提問，還是模型的回答。

研究者設計了一套雙通道的評測協定，在八個模型、五個資料集、五種壓縮強度下，對每次生成同時打三個分數：任務正確率、實際每題花的成本，以及和模型未受限制時的參考輸出有多一致。把這三件事一起量，才看得出壓縮到底是省錢還是省了個寂寞。

結論的關鍵，在於壓縮發生在哪個通道。壓縮使用者的提問，和壓縮模型的回答，對成本與正確率的影響並不一樣；有些省法看似縮短了字數，實際成本或答案品質卻沒照預期走，甚至偷偷變差。直覺上的「越短越省」，在數據面前並不總是成立。

對在意 API 帳單的開發者，這篇研究很實用：與其盲目把提示詞砍短，不如先搞清楚成本到底花在輸入還是輸出那一段，再對症下藥。省 token 是門需要量測的功夫，憑感覺亂砍，可能省了字數卻賠上正確率，得不償失。

歸剛點評｜「越短越省」在數據面前不總成立。省 token 要先搞清楚成本花在輸入還是輸出，再對症下藥；憑感覺亂砍提示詞，可能省了字數卻賠上正確率。

歸剛誒AI