歸剛誒AI

歸剛欸,AI 又進步了——每天幫你盯 AI 圈的台灣人日報

← 回首頁 · 回第 26 期(2026-07-05)
開源・2026-07-05

Google 不給更大的,社群自己撐:Gemma4-31B 被擴成 44B「科學怪模」

Google 遲遲不釋出比 31B 更大的 Gemma 4,一位開發者索性自己動手:先用恆等初始化的插入法把 Gemma4-31B 從 60 層擴到 80 層,再複製插入一個 8 層區塊撐到 88 層,得到 44B 參數的 ExtGemma4-44B。關鍵的工程眉角是恆等初始化搭配 Gemma 特有的 layer_scalar 設為 1.0,確保擴層當下模型行為與原版完全一致,之後再用韓文法律與理工資料微調,讓新增的層學出東西。作者觀察到,加進去的全注意力層在微調後的貢獻高於滑動視窗注意力層。

r/LocalLlama 的討論熱度衝破 1,200,社群反應支持中帶著方法論的挑剔:有人建議跟「repeat yourself」式的樸素層複製基線對比,證明恆等插入真的比無腦複製多賺了什麼;也有人等著量化版本出來才跑得動,或乾脆開玩笑問角色扮演微調什麼時候出。「科學怪人式」的模型手術在 Llama 2 時代就有前例,如今在更強的基底模型上重演。

現象本身比單一模型有趣:開源社群對模型尺寸的需求,已經強到願意自己動刀補位。廠商基於安全或商業考量控制釋出規格,社群就用層擴展、蒸餾、合併等手術繞過去——開放權重一旦出門,演化路線就再也不由原廠決定。

歸剛點評|開放權重的真正意義在這裡:原廠不做的,社群自己做。手術式擴模型的效果還需要嚴謹基線驗證,但方向明確——模型尺寸的供給缺口,市場會自己填。做在地化模型的團隊可以關注這套恆等擴層手法,它比從頭預訓練便宜太多。

同期其他文章