開源・2026-07-05

Google 不給更大的，社群自己撐：Gemma4-31B 被擴成 44B「科學怪模」

Google 遲遲不釋出比 31B 更大的 Gemma 4，一位開發者索性自己動手：先用恆等初始化的插入法把 Gemma4-31B 從 60 層擴到 80 層，再複製插入一個 8 層區塊撐到 88 層，得到 44B 參數的 ExtGemma4-44B。關鍵的工程眉角是恆等初始化搭配 Gemma 特有的 layer_scalar 設為 1.0，確保擴層當下模型行為與原版完全一致，之後再用韓文法律與理工資料微調，讓新增的層學出東西。作者觀察到，加進去的全注意力層在微調後的貢獻高於滑動視窗注意力層。

r/LocalLlama 的討論熱度衝破 1,200，社群反應支持中帶著方法論的挑剔：有人建議跟「repeat yourself」式的樸素層複製基線對比，證明恆等插入真的比無腦複製多賺了什麼；也有人等著量化版本出來才跑得動，或乾脆開玩笑問角色扮演微調什麼時候出。「科學怪人式」的模型手術在 Llama 2 時代就有前例，如今在更強的基底模型上重演。

現象本身比單一模型有趣：開源社群對模型尺寸的需求，已經強到願意自己動刀補位。廠商基於安全或商業考量控制釋出規格，社群就用層擴展、蒸餾、合併等手術繞過去——開放權重一旦出門，演化路線就再也不由原廠決定。

歸剛點評｜開放權重的真正意義在這裡：原廠不做的，社群自己做。手術式擴模型的效果還需要嚴謹基線驗證，但方向明確——模型尺寸的供給缺口，市場會自己填。做在地化模型的團隊可以關注這套恆等擴層手法，它比從頭預訓練便宜太多。

來源：smol.ai AINews　·　r/LocalLlama

歸剛誒AI

Google 不給更大的，社群自己撐：Gemma4-31B 被擴成 44B「科學怪模」

同期其他文章