開源・2026-06-22

開源 9B 模型挑戰文件結構化抽取，內部基準逼近 Gemini 3.5 Flash

文件抽取這個又苦又實用的領域，這週多了一個值得注意的開源選手。Vik Paruchuri 發表了一個 9B 參數的模型，專門做從文件裡抽取結構化資料這件事。據 smol.ai 整理，他回報這個模型在自家內部基準上拿到 90.2%，對比 Gemini 3.5 Flash 的 91.3% 只差一點點，而且明顯領先 NuExtract3 等既有的抽取專用工具（後者約 81.5%）；速度方面 p50 約 9.5 秒，輸出走 JSON schema 格式。

為什麼這類模型對企業特別有感？因為「把一份 PDF、發票、合約變成乾淨的結構化欄位」是無數後台流程的起點，過去要嘛靠脆弱的規則式解析、要嘛把整份文件丟給昂貴的閉源大模型。一個只有 9B、能自己部署、又逼近頂尖閉源水準的開源模型，等於讓中小團隊也付得起這道工序——資料不必外送、成本可控、還能照自己的 schema 客製輸出。

把它跟同期另一則消息對照很有意思：Jerry Liu 點名一個叫 LiteParse 的純程式碼解析器，宣稱在 Markdown 為主的文件上能贏過部分視覺語言模型與 OCR 系統，而且免費又快。兩則放在一起的提醒是——不是每個文件智慧問題都需要動用生成式多模態的重武器。對台灣做表單、報關、財務自動化的團隊，先評估輕量開源方案，往往比一上來就接閉源大模型更省、更穩。

歸剛點評｜文件結構化抽取是無數後台流程的第一道工序。一個能自部署、又逼近閉源水準的 9B 開源模型，讓中小團隊也付得起這道過去得外送昂貴大模型的工。

來源：smol.ai AINews

歸剛誒AI

開源 9B 模型挑戰文件結構化抽取，內部基準逼近 Gemini 3.5 Flash

同期其他文章