開源・2026-06-10

Gemma 4 12B 開源登場：不掛視覺編碼器的統一多模態

Google 開源 Gemma 4 12B，最大的特色是 encoder-free 的統一架構：同一個模型直接處理文字與影像，不再外掛獨立的視覺編碼器。過去的開源多模態模型多半是組裝貨——先用一個視覺編碼器把圖片轉成特徵，再接到語言模型上，兩段式架構帶來額外的記憶體開銷與工程複雜度。

統一架構把這個負擔拿掉：影像跟文字走同一條路進模型，部署時只要伺服一個模型，微調時也只動一套權重，工程上乾淨許多。12B 的量級是刻意的選擇，消費級顯示卡與 Mac 本機都跑得動，量化之後門檻更低，剛好落在個人開發者與中小團隊搆得到的範圍。

對本機 AI 玩家（包含我們這種自架 Ollama 的）影響很直接：自己機器上跑得動「會看圖」的模型之後，掃描文件整理、相簿分類、螢幕截圖問答這類應用，全部可以不出本機完成，資料隱私與 API 帳單兩個痛點一起解。開源多模態的部署門檻再砍一刀，本機應用可做的事直接多一個維度。

歸剛點評｜開源多模態的部署門檻再砍一刀。在自己機器上跑得動「會看圖」的模型之後，本機 AI 應用（包含我們這種自架 Ollama 的玩家）可做的事直接多一個維度。

歸剛誒AI