推論加速再進一步:Qwen 3.x 新版投機解碼,單卡衝破每秒千 token
推論這條戰線這週又往前推了一把,重點在吞吐量。據 smol.ai 整理,Modal 與 Z Lab 為 Qwen 3.x 系列一口氣釋出了六款新的投機解碼器,其中最搶眼的宣稱是:Qwen 3.5 122B-A10B 這個規格,在單張 B200 上能跑出每秒一千個以上的輸出 token。如果這個數字在接近真實生產的負載下也站得住,那投機解碼仍然是目前最能實質改變伺服成本的少數槓桿之一。
投機解碼的概念,是用一個小而快的模型先「猜」出接下來幾個 token,再讓大模型一次性驗證這串猜測,猜對就直接採用、猜錯才退回重算。等於把原本一個一個吐字的串行過程,變成大段大段地批次確認,速度因此能拉高好幾倍,而輸出品質不打折。對要大量、低延遲供應模型的服務商,每秒能多吐幾百個 token,直接反映在每筆請求的成本上。
把這條線跟同一期的 GLM-5.2 放在一起看,方向就很清楚:當開源權重模型本身已經逼近前沿,下一個分勝負的戰場是「你能多便宜、多快地把它伺服出去」。本站第十二期就說過,智慧本身已近平台期,進步藏在工程細節裡。投機解碼正是那種不改模型、只靠系統工程就能把成本砍一截的細節。對精打細算的團隊,這比追逐下一個更大的模型實在得多。
歸剛點評|當模型能力趨於拉平,伺服成本就成了真正的勝負手。投機解碼不動模型、只靠系統工程就能把吞吐拉高數倍,是省錢團隊最該盯的那類進步。