Fable 5 寫出史上首個「單發射 megakernel」,推論加速 18.7 倍
GPU 工程師 Elliot Arledge 在 KernelBench-Mega 上發表的結果,讓系統圈集體豎起耳朵:Claude Fable 5 為 Kimi-Linear 的解碼工作負載寫出了第一個貨真價實的單發射 megakernel——整個解碼流程壓進單一 GPU kernel 發射,比參考實作快 18.7 倍,同時打敗了先前所有多 kernel 的參賽作品。
技術細節密度足以讓行家買單:暫存器內的 int4 反量化、把注意力/路由器/MoE/正規化/KV 快取寫入全部融合進單一 kernel、精打細算地削減同步屏障。更值得注意的是過程描述——模型展現了完整的效能工程行為:跑基準測試、發現效能倒退就回滾、朝理論屋頂線(roofline)持續逼近。寫 kernel 這件事向來是系統工程的黑魔法領域,人才稀缺到各大實驗室互相挖角,模型能自主完成整套優化迴圈,意義超過那個 18.7 倍的數字本身。
拉遠看,推論成本正從多個方向同時崩落:vLLM 團隊回報 DeepSeek V4 的 token 成本一個月內降了五倍,投機解碼的「放大 speculator」路線也被點名為新的加速維度。kernel 自動化若能規模化,等於把最貴的系統工程師才華複製給每個團隊,推論價格戰的下一輪彈藥已經上膛。
歸剛點評|AI 寫出超越人類專家的 GPU kernel,這條迴圈一旦閉合——模型優化自己的推論成本、省下的算力再拿去訓練更強的模型——飛輪就轉起來了。做推論服務的團隊請把 kernel 自動化列入明年的成本模型,18.7 倍不會是終點。