研究・2026-06-12

次二次方架構大比拚：xLSTM、Mamba-2、Gated DeltaNet 誰能挑戰注意力機制

Transformer 統治序列建模多年，但注意力機制的計算成本隨序列長度呈二次方成長，脈絡一拉長就燒錢燒到懷疑人生。次二次方（subquadratic）架構是學界持續押注的替代路線，本週登上 Hugging Face 論文榜的這篇研究做了一件實在事：把三個目前最被看好的方案——xLSTM、Mamba-2、Gated DeltaNet——拉到同一個擂台上系統性比較，而且選的是有複雜依賴關係的硬任務。

測試場景包括程式碼模型預訓練、從大型語言模型蒸餾程式碼模型等，都是對長距離依賴與精確記憶要求很高的任務。程式碼比一般文字殘酷得多：變數在幾百行外定義、括號要精確配對、一個 token 錯就全盤崩，最能逼出線性類架構在記憶壓縮上的真實極限。論文的目標是從應用表現回推設計原則，回答「哪些架構選擇真正有效」而非單純刷榜。

實務意義在於推理成本。注意力機制的 KV 快取隨脈絡線性膨脹，服務長脈絡的記憶體成本是所有模型商的痛；次二次方架構用固定大小的狀態壓縮歷史，推理成本幾乎不隨脈絡長度成長。本站第二期報導的 DiffusionGemma 從生成方式挑戰自迴歸，這篇則從架構層挑戰注意力，兩條戰線都瞄準同一個目標：把大模型的服務成本打下來。

歸剛點評｜架構之爭的本質是成本之爭。次二次方路線每前進一步，長脈絡應用的單位經濟就改善一分；做推理基建與本機部署的團隊，值得把比較結論收進選型筆記。

來源：Hugging Face Papers

歸剛誒AI

次二次方架構大比拚：xLSTM、Mamba-2、Gated DeltaNet 誰能挑戰注意力機制

同期其他文章