Gemma 4 12B 開源登場:不掛視覺編碼器的統一多模態
Google 開源 Gemma 4 12B,最大的特色是 encoder-free 的統一架構:同一個模型直接處理文字與影像,不再外掛獨立的視覺編碼器。過去的開源多模態模型多半是組裝貨——先用一個視覺編碼器把圖片轉成特徵,再接到語言模型上,兩段式架構帶來額外的記憶體開銷與工程複雜度。
統一架構把這個負擔拿掉:影像跟文字走同一條路進模型,部署時只要伺服一個模型,微調時也只動一套權重,工程上乾淨許多。12B 的量級是刻意的選擇,消費級顯示卡與 Mac 本機都跑得動,量化之後門檻更低,剛好落在個人開發者與中小團隊搆得到的範圍。
對本機 AI 玩家(包含我們這種自架 Ollama 的)影響很直接:自己機器上跑得動「會看圖」的模型之後,掃描文件整理、相簿分類、螢幕截圖問答這類應用,全部可以不出本機完成,資料隱私與 API 帳單兩個痛點一起解。開源多模態的部署門檻再砍一刀,本機應用可做的事直接多一個維度。
歸剛點評|開源多模態的部署門檻再砍一刀。在自己機器上跑得動「會看圖」的模型之後,本機 AI 應用(包含我們這種自架 Ollama 的玩家)可做的事直接多一個維度。
來源:DeepMind 官方