「講短一點、省 token」真的有省嗎?CAVEWOMAN 給了兩面答案
「講短一點、把文法丟掉、省下 token」——這種被戲稱為「穴居人風格」的省錢寫法,常被推薦用來壓低推論成本。但它到底有沒有省到,一篇叫 CAVEWOMAN 的研究說:得看你壓縮的是哪一邊,使用者的提問,還是模型的回答。
研究者設計了一套雙通道的評測協定,在八個模型、五個資料集、五種壓縮強度下,對每次生成同時打三個分數:任務正確率、實際每題花的成本,以及和模型未受限制時的參考輸出有多一致。把這三件事一起量,才看得出壓縮到底是省錢還是省了個寂寞。
結論的關鍵,在於壓縮發生在哪個通道。壓縮使用者的提問,和壓縮模型的回答,對成本與正確率的影響並不一樣;有些省法看似縮短了字數,實際成本或答案品質卻沒照預期走,甚至偷偷變差。直覺上的「越短越省」,在數據面前並不總是成立。
對在意 API 帳單的開發者,這篇研究很實用:與其盲目把提示詞砍短,不如先搞清楚成本到底花在輸入還是輸出那一段,再對症下藥。省 token 是門需要量測的功夫,憑感覺亂砍,可能省了字數卻賠上正確率,得不償失。
歸剛點評|「越短越省」在數據面前不總成立。省 token 要先搞清楚成本花在輸入還是輸出,再對症下藥;憑感覺亂砍提示詞,可能省了字數卻賠上正確率。