工程・2026-07-05

Fable 5 寫出史上首個「單發射 megakernel」，推論加速 18.7 倍

GPU 工程師 Elliot Arledge 在 KernelBench-Mega 上發表的結果，讓系統圈集體豎起耳朵：Claude Fable 5 為 Kimi-Linear 的解碼工作負載寫出了第一個貨真價實的單發射 megakernel——整個解碼流程壓進單一 GPU kernel 發射，比參考實作快 18.7 倍，同時打敗了先前所有多 kernel 的參賽作品。

技術細節密度足以讓行家買單：暫存器內的 int4 反量化、把注意力／路由器／MoE／正規化／KV 快取寫入全部融合進單一 kernel、精打細算地削減同步屏障。更值得注意的是過程描述——模型展現了完整的效能工程行為：跑基準測試、發現效能倒退就回滾、朝理論屋頂線（roofline)持續逼近。寫 kernel 這件事向來是系統工程的黑魔法領域，人才稀缺到各大實驗室互相挖角，模型能自主完成整套優化迴圈，意義超過那個 18.7 倍的數字本身。

拉遠看，推論成本正從多個方向同時崩落：vLLM 團隊回報 DeepSeek V4 的 token 成本一個月內降了五倍，投機解碼的「放大 speculator」路線也被點名為新的加速維度。kernel 自動化若能規模化，等於把最貴的系統工程師才華複製給每個團隊，推論價格戰的下一輪彈藥已經上膛。

歸剛點評｜AI 寫出超越人類專家的 GPU kernel，這條迴圈一旦閉合——模型優化自己的推論成本、省下的算力再拿去訓練更強的模型——飛輪就轉起來了。做推論服務的團隊請把 kernel 自動化列入明年的成本模型，18.7 倍不會是終點。

來源：smol.ai AINews

歸剛誒AI

Fable 5 寫出史上首個「單發射 megakernel」，推論加速 18.7 倍

同期其他文章