研究・2026-06-21

「LLM 現在很複雜了」：一篇技術回顧，盤點現代模型架構的爆炸式分化

工程師 Ian Barber 寫了一篇回顧，標題直接點題：LLM 現在很複雜了。他回憶 2022 到 2023 年在 Meta，當時有兩條機器學習路線——催生 Llama 的 LLM 工作是一疊乾淨、重複堆疊的 Transformer 模組，相形之下推薦系統的計算圖則「相當嚇人」。他半開玩笑地說，後來業界很努力地把 LLM 也搞得一樣複雜，總算「補正」了這個落差。

他舉了具體例子：拿 Sebastian Raschka 維護的模型架構圖庫，去比對兩個各自時代的頂尖開源模型 Llama 3 與 Nemotron 3 Ultra，差異一目了然。「注意力就是你需要的一切」也許沒錯，但現代模型用上了一堆注意力變體——查詢分組、壓縮、稀疏、線性、滑動視窗等等。混合專家（MoE）替前饋層加上了選擇性路由，而現在幾乎什麼都在被路由，從注意力區塊到殘差流都是。

複雜度還不只在模型內部。視覺與音訊編碼器從「外掛」變成「內建混合」，模型規模大到要在多張 GPU 上做推論，於是又引進通訊運算、帶來額外的同步開銷。把這篇放進今天的脈絡看別有意味：當 GLM-5.2 這類開源模型用更小體積逼近閉源巨獸，背後靠的正是這些架構巧思，而非單純把參數堆高。智慧的進步，愈來愈藏在工程細節裡。

歸剛點評｜模型進步的重心正從「堆參數」轉向「架構工程」，這解釋了為何更小的開源模型能追上巨型閉源模型。看懂這層分化，才看得懂這一輪 AI 競賽真正在比什麼。

來源：Ian Barber's Blog

歸剛誒AI

「LLM 現在很複雜了」：一篇技術回顧，盤點現代模型架構的爆炸式分化

同期其他文章