Google 開源 DiffusionGemma:擴散式文字生成,本機跑快四倍
Google DeepMind 正式開源 DiffusionGemma,模型代號 diffusiongemma-26B-A4B-it,採 Apache 2 授權,任何人都能下載商用。它最大的賣點是把「擴散式生成」搬進文字模型:傳統大型語言模型是自迴歸架構,一個字一個字往下接;擴散模型則像生圖那樣從噪聲整批去噪、平行修出整段文字,官方數字是本機推理快上四倍。
前情是去年五月 Google 短暫釋出過實驗性的 Gemini Diffusion,Simon Willison 當時實測跑出每秒 857 個 token 的驚人速度,之後 Google 卻沒了下文。這次研究成果用最漂亮的方式回歸:直接變成開放權重的 Gemma 家族成員,NVIDIA 目前還在自家 NIM 雲端免費託管給大家試玩。
26B 總參數、A4B 啟用參數的設計,意味著消費級硬體就跑得動。對本機部署族群(自架 Ollama、邊緣裝置、注重隱私的企業)來說,速度快四倍等於同樣硬體能服務四倍請求,或同樣體驗下硬體成本砍四分之三。另一個值得記下的是授權條款:Apache 2 允許商用與自由微調,企業可以把它收進自家技術棧而不必擔心授權地雷,在大廠開源模型裡屬於最寬鬆的一檔。
歸剛點評|自迴歸架構壟斷文字生成這麼多年,第一次有大廠把擴散式文字模型用開源等級的完成度放出來。速度紅利最先落在本機與邊緣部署,雲端 API 的價格壓力也會跟著來。