工程・2026-06-22

推論加速再進一步：Qwen 3.x 新版投機解碼，單卡衝破每秒千 token

推論這條戰線這週又往前推了一把，重點在吞吐量。據 smol.ai 整理，Modal 與 Z Lab 為 Qwen 3.x 系列一口氣釋出了六款新的投機解碼器，其中最搶眼的宣稱是：Qwen 3.5 122B-A10B 這個規格，在單張 B200 上能跑出每秒一千個以上的輸出 token。如果這個數字在接近真實生產的負載下也站得住，那投機解碼仍然是目前最能實質改變伺服成本的少數槓桿之一。

投機解碼的概念，是用一個小而快的模型先「猜」出接下來幾個 token，再讓大模型一次性驗證這串猜測，猜對就直接採用、猜錯才退回重算。等於把原本一個一個吐字的串行過程，變成大段大段地批次確認，速度因此能拉高好幾倍，而輸出品質不打折。對要大量、低延遲供應模型的服務商，每秒能多吐幾百個 token，直接反映在每筆請求的成本上。

把這條線跟同一期的 GLM-5.2 放在一起看，方向就很清楚：當開源權重模型本身已經逼近前沿，下一個分勝負的戰場是「你能多便宜、多快地把它伺服出去」。本站第十二期就說過，智慧本身已近平台期，進步藏在工程細節裡。投機解碼正是那種不改模型、只靠系統工程就能把成本砍一截的細節。對精打細算的團隊，這比追逐下一個更大的模型實在得多。

歸剛點評｜當模型能力趨於拉平，伺服成本就成了真正的勝負手。投機解碼不動模型、只靠系統工程就能把吞吐拉高數倍，是省錢團隊最該盯的那類進步。

來源：smol.ai AINews

歸剛誒AI

推論加速再進一步：Qwen 3.x 新版投機解碼，單卡衝破每秒千 token

同期其他文章