次二次方架構大比拚:xLSTM、Mamba-2、Gated DeltaNet 誰能挑戰注意力機制
Transformer 統治序列建模多年,但注意力機制的計算成本隨序列長度呈二次方成長,脈絡一拉長就燒錢燒到懷疑人生。次二次方(subquadratic)架構是學界持續押注的替代路線,本週登上 Hugging Face 論文榜的這篇研究做了一件實在事:把三個目前最被看好的方案——xLSTM、Mamba-2、Gated DeltaNet——拉到同一個擂台上系統性比較,而且選的是有複雜依賴關係的硬任務。
測試場景包括程式碼模型預訓練、從大型語言模型蒸餾程式碼模型等,都是對長距離依賴與精確記憶要求很高的任務。程式碼比一般文字殘酷得多:變數在幾百行外定義、括號要精確配對、一個 token 錯就全盤崩,最能逼出線性類架構在記憶壓縮上的真實極限。論文的目標是從應用表現回推設計原則,回答「哪些架構選擇真正有效」而非單純刷榜。
實務意義在於推理成本。注意力機制的 KV 快取隨脈絡線性膨脹,服務長脈絡的記憶體成本是所有模型商的痛;次二次方架構用固定大小的狀態壓縮歷史,推理成本幾乎不隨脈絡長度成長。本站第二期報導的 DiffusionGemma 從生成方式挑戰自迴歸,這篇則從架構層挑戰注意力,兩條戰線都瞄準同一個目標:把大模型的服務成本打下來。
歸剛點評|架構之爭的本質是成本之爭。次二次方路線每前進一步,長脈絡應用的單位經濟就改善一分;做推理基建與本機部署的團隊,值得把比較結論收進選型筆記。