VIA-SD:被否決的草稿先別急著重算,「瘦版驗證器」幫推測解碼再提速
推測解碼(speculative decoding)是目前壓低 LLM 推理成本的主流技巧:讓輕量草稿模型先猜一串候選 token,再交給大模型平行驗證。現行做法的決策是二元的——草稿要嘛被接受,要嘛被整個丟回給完整大模型重算。Hugging Face 本週熱門論文 VIA-SD 找到了中間地帶。
研究者的關鍵觀察是:許多被拒絕的 token 其實不需要勞動完整驗證器,從大模型內部用「模型內路由」(intra-model routing)切出來的精簡子模型就能正確驗證。VIA-SD 據此引入「瘦版驗證器」(slim verifier)處理中等驗證需求的 token,形成草稿模型、瘦驗證器、完整驗證器的三層分工,每層只處理自己等級的不確定性。
這類工作單篇看是漸進改良,疊起來就是產業故事:本期 Kimi K2.7-Code 主打省 30% 推理 token,VIA-SD 從解碼機制再榨一層效率,方向完全一致——推理成本是 AI 商業模式的地基,每省一成,代理產品的毛利就多一分活路。學術圈跟產業界正在合力把「跑得起」變成「跑得便宜」,這條戰線的進展速度不輸模型能力本身。
歸剛點評|推理優化的論文不性感但最實用,因為省下來的是電跟錢。三層驗證的思路也很有遷移性:把「全有或全無」的二元決策改成分級處理,在快取、路由、審核管線都用得上。基礎設施團隊值得把這篇加進待讀清單。