「LLM 現在很複雜了」:一篇技術回顧,盤點現代模型架構的爆炸式分化
工程師 Ian Barber 寫了一篇回顧,標題直接點題:LLM 現在很複雜了。他回憶 2022 到 2023 年在 Meta,當時有兩條機器學習路線——催生 Llama 的 LLM 工作是一疊乾淨、重複堆疊的 Transformer 模組,相形之下推薦系統的計算圖則「相當嚇人」。他半開玩笑地說,後來業界很努力地把 LLM 也搞得一樣複雜,總算「補正」了這個落差。
他舉了具體例子:拿 Sebastian Raschka 維護的模型架構圖庫,去比對兩個各自時代的頂尖開源模型 Llama 3 與 Nemotron 3 Ultra,差異一目了然。「注意力就是你需要的一切」也許沒錯,但現代模型用上了一堆注意力變體——查詢分組、壓縮、稀疏、線性、滑動視窗等等。混合專家(MoE)替前饋層加上了選擇性路由,而現在幾乎什麼都在被路由,從注意力區塊到殘差流都是。
複雜度還不只在模型內部。視覺與音訊編碼器從「外掛」變成「內建混合」,模型規模大到要在多張 GPU 上做推論,於是又引進通訊運算、帶來額外的同步開銷。把這篇放進今天的脈絡看別有意味:當 GLM-5.2 這類開源模型用更小體積逼近閉源巨獸,背後靠的正是這些架構巧思,而非單純把參數堆高。智慧的進步,愈來愈藏在工程細節裡。
歸剛點評|模型進步的重心正從「堆參數」轉向「架構工程」,這解釋了為何更小的開源模型能追上巨型閉源模型。看懂這層分化,才看得懂這一輪 AI 競賽真正在比什麼。