研究・2026-06-13

VIA-SD：被否決的草稿先別急著重算，「瘦版驗證器」幫推測解碼再提速

推測解碼（speculative decoding）是目前壓低 LLM 推理成本的主流技巧：讓輕量草稿模型先猜一串候選 token，再交給大模型平行驗證。現行做法的決策是二元的——草稿要嘛被接受，要嘛被整個丟回給完整大模型重算。Hugging Face 本週熱門論文 VIA-SD 找到了中間地帶。

研究者的關鍵觀察是：許多被拒絕的 token 其實不需要勞動完整驗證器，從大模型內部用「模型內路由」（intra-model routing）切出來的精簡子模型就能正確驗證。VIA-SD 據此引入「瘦版驗證器」（slim verifier）處理中等驗證需求的 token，形成草稿模型、瘦驗證器、完整驗證器的三層分工，每層只處理自己等級的不確定性。

這類工作單篇看是漸進改良，疊起來就是產業故事：本期 Kimi K2.7-Code 主打省 30% 推理 token，VIA-SD 從解碼機制再榨一層效率，方向完全一致——推理成本是 AI 商業模式的地基，每省一成，代理產品的毛利就多一分活路。學術圈跟產業界正在合力把「跑得起」變成「跑得便宜」，這條戰線的進展速度不輸模型能力本身。

歸剛點評｜推理優化的論文不性感但最實用，因為省下來的是電跟錢。三層驗證的思路也很有遷移性：把「全有或全無」的二元決策改成分級處理，在快取、路由、審核管線都用得上。基礎設施團隊值得把這篇加進待讀清單。

來源：Hugging Face Papers

歸剛誒AI

VIA-SD：被否決的草稿先別急著重算，「瘦版驗證器」幫推測解碼再提速

同期其他文章