第 25 期2026-07-04(台北時間)
七月四日的頭條落在中美 AI 工具的互不信任:路透引述消息人士報導,阿里巴巴打算以「後門風險」為由在公司內禁用 Claude Code,證據沒亮出來,站隊的意味倒是很濃。Anthropic 這邊一天雙響——先公布 Fable 5 資安護欄細節與越獄嚴重度分級框架草案,又在科學活動上宣布 Claude Science 工作台、還說要親自下場開發被忽視疾病的藥物。Google DeepMind 則找上文青片廠 A24 搞研究合作,順手投資入股。潑冷水的也不少:Zuckerberg 在內部會議承認 AI agent 進度不如預期,Elena Verna 呼籲大家停止「AI 自信劇場」,一線工程團隊實測發現讓 agent 搜自己的舊對話紀錄對寫程式毫無幫助。工具圈持續吹省錢與本機化的風:pxpipe 把上下文轉成圖片省六成 token、四萬美元在家跑出接近 Opus 等級的開源模型攻略爆紅、蘋果替 Safari 內建 MCP 伺服器。學界今天的關鍵字是 agent 記憶——記什麼、何時取、怎麼整理,三篇論文各給一種答案。
資安
路透社七月三日引述一名知情人士報導,阿里巴巴打算在公司內部禁止員工使用 Anthropic 的編程代理 Claude Code,給出的理由是所謂的後門風險。報導本身相當簡短,沒有附上任何具體的技術證據或漏洞細節,也未說明禁令的生效時程。消息傳開後立刻登上 Hacker News 熱榜,討論串拿下三百多分,工程師社群普遍追問同一件事:後門的證據在哪裡。
Claude Code 是 Anthropic 推出的終端機編程代理,過去一年在全球工程圈滲透率極高,連中國大廠的工程師私下使用也是公開的秘密。阿里巴巴自家握有通義千問 Qwen 系列模型與自研編程工具,內部禁用美製代理的同時,等於替自家產品清出場地。在中美科技管制互相加碼的背景下,「安全疑慮」向來是雙方最順手的理由,美國以國安為由限制中國模型與應用,中國企業回頭以同樣語言排除美製工具,語彙完全對稱。
對跨國團隊來說,影響相當實際:工具鏈正沿著地緣界線裂成兩套,用什麼 agent 寫程式開始變成有國籍的選擇。本站第 24 期才報過 OpenAI 想捐股權給美國主權基金換政治和平,同一週的兩條新聞擺在一起看,AI 產業與政治的纏繞速度比多數人想像的快。後續值得盯的是阿里是否正式公告、Anthropic 是否回應,以及其他中國大廠會不會跟進。
歸剛點評|宣稱有後門卻不給證據,比較像地緣政治與商業防守的組合技,順便替自家 Qwen 清場。台灣團隊該留意的是工具選型的政治風險成為常態:接中國市場的案子可能被要求用中國工具鏈,兩邊押注的成本得先算進報價。
資安
Fable 5 重新全球上線之際,Anthropic 詳列其資安分類器要防與不防的危害類型,並與 Glasswing 夥伴合作提出 AI 越獄嚴重度分級框架草案,同步開設 HackerOne 計畫接收研究者回報。
Anthropic 七月二日發文說明 Claude Fable 5 已重新部署、恢復全球所有用戶可用,並藉機公開兩件事:第一是隨模型上線的資安防護細節,也就是負責偵測與攔截危險網路安全用途的安全分類器,這次給出一份明確清單,列出分類器設計上要防止、以及刻意不防的危害類型;第二是一份與 Glasswing 夥伴合作起草的 AI 越獄嚴重度分級框架早期版本。
資安是典型的雙重用途領域:讓防禦方掃自家程式碼找漏洞的能力,換一雙手就是攻擊前置作業。Anthropic 的做法是在模型旁邊掛分類器做行為攔截,而非把能力從模型裡拔掉。至於越獄,指的是用非常規提示繞過護欄、解鎖被封鎖行為的手法,嚴重程度落差很大,有的只解鎖輕微越界,有的能一口氣打開大範圍危險輸出,但業界至今沒有共通的描述語言。
分級框架的用意就在補這個洞:讓 AI 公司與政府談論某個越獄的風險時,能用一致的度量衡。Anthropic 表明目前只是拋磚引玉,歡迎學界、業界與公民社會批評指教,並同步開了 HackerOne 計畫,讓資安研究者提交在 Fable 5 上發現的網路類越獄。對照本站先前報導的 Fable 5 上線與下架風波,這波資訊揭露算是把當初「為什麼要加護欄」的帳目攤開來給大家看。
歸剛點評|越獄嚴重度分級是目前第一份想當「共通語言」的框架草案,做資安的朋友值得直接讀原文,也多了 HackerOne 這條正式回報管道。廠商自己攤開「防什麼、不防什麼」的清單,比空喊安全有誠意,後續就看其他實驗室跟不跟。
產業
Anthropic 在「The Briefing: AI for Science」活動上發表整合工具與資料集的科學家工作台 Claude Science,生命科學負責人並表示公司將投入開發「被忽視疾病」的治療藥物,是前沿 AI 公司最直接的製藥宣示。
Anthropic 本週在「The Briefing: AI for Science」活動上發表 Claude Science,定位是給科學家的 AI 工作台,把原本四散的工具與資料集拉進同一個環境,還能自動產出圖表與視覺化。公司列出一長串已在使用 Claude 的生技與製藥客戶,把這次發表包裝成「AI 加速科學發現與醫療介入」的敘事。
更大的新聞藏在後半:生命科學負責人 Eric Kauderer-Abrams 表示,Anthropic 將親自投入藥物開發,聚焦「被忽視的疾病」。The Verge 指出,各家 AI 公司搶攻科學與製藥客戶行之有年,OpenAI、Amazon、Google 都有自己的生命科學工具或平台,但由前沿模型公司直接下場做藥,Anthropic 是目前最公開、最直接的一家,等於一邊賣軟體給藥廠、一邊自己變成藥廠的同行。
潑冷水的部分也得記著:AI 製藥喊了快十年,至今還沒有一款主要由 AI 發現的藥物完成三期臨床、真正送到病人手上,前面幾家明星 AI 藥廠的臨床管線多有挫敗。選「被忽視疾病」當切入點很聰明,商業上避開與大客戶正面競爭,敘事上又站得住腳,但藥物開發的十年長跑與燒錢規模,跟模型公司習慣的節奏完全是兩回事。
歸剛點評|賣鏟子的自己下去挖礦,客戶關係遲早要重新談。真正的看點是模型公司開始相信自家工具能吃下科學研發的核心流程,而非只當輔助。台灣生技圈可以留意 Claude Science 的工作台形態,離「實驗室作業系統」的想像又近一步。
產業
Google DeepMind 與以作者導向著稱的獨立片廠 A24 宣布跨多專案的研究合作,讓電影工作者直接參與生成式工具的研發流程,Google 並對 A24 進行投資。
Google DeepMind 七月三日宣布與獨立製片廠 A24 建立號稱首創的研究合作關係,內容是橫跨多個專案的深度研發協作:DeepMind 把最新技術直接嵌進 A24 的創作流程,讓導演與製作團隊在拍片過程中實際使用、回饋並形塑這些工具。除了合作案本身,Google 也對 A24 進行了投資,等於研究與資本雙線綁定。
A24 是近十年最具指標性的獨立片廠,以作者導向與題材大膽著稱,這樣的公司選擇與 AI 實驗室同桌,訊號意義不小。好萊塢對生成式 AI 的態度自二〇二三年編劇與演員罷工以來一直緊繃,工會協約明文限制 AI 使用,多數片廠對外談 AI 都字斟句酌。DeepMind 的說法是要讓「未來的工具由使用它的創作者形塑」,把主導權的敘事讓給藝術家。
雙方都強調初期聚焦在縮短前沿技術與次世代娛樂之間的距離,具體目標、技術產出與創作里程碑會隨時間演變,講白了就是先結盟、邊做邊定義。對照 OpenAI 與 Runway 各自經營影視圈的方式,DeepMind 選擇綁一家片廠深耕而非廣撒工具,路線差異後續值得追蹤,第一部掛名合作的作品會是檢驗點。
歸剛點評|文青片廠幫生成式影視工具蓋品質認證章,比十支炫技 demo 都有說服力。創作者參與制定工具的規格,比事後抵制有效,A24 選擇上桌拿話語權。影視從業者該關注的是合作產出的工作流程規格,那會變成日後全行業的預設值。
產業
路透報導,Zuckerberg 在內部全員大會坦言 AI agent 的開發步調未如高層預期加速,年初裁撤約八千人、轉調七千人投入 AI 的重組效益「尚未實現」,但他預期三到六個月內會看到改善。
路透社報導,Meta 執行長 Mark Zuckerberg 週四在內部全員大會告訴員工,AI agent 的開發步調並未像高層先前預期那樣加速。今年稍早 Meta 裁撤約八千名員工,佔公司職員約一成,另把七千人轉調到各 AI 部門,其中包括一個叫「Agent Transformation」的單位,賭注下得又急又重。
Zuckerberg 在會中也談到那波裁員,承認執行得沒有應有的「乾淨」,並解釋當初動刀是因為高層擔心公司來不及適應產業變局。他坦言新的 AI 導向組織架構的預期效益「尚未實現」,但話鋒一轉,表示相信未來三到六個月會開始看到 AI 投資的改善。Meta 今年的 AI 基礎設施支出預估高達一千四百五十億美元,多份調查報導則把 Meta 成立數月的 AI 部門描述成士氣低迷的高壓單位。
同日一篇在 Hacker News 熱榜上的評論文章直接把這場談話讀成「Zuckerberg 承認裁員無效」:用 AI 取代人的算盤打得太早,agent 還接不住被裁掉的工作。對照本期另一條 Elena Verna 批評「AI 自信劇場」的文章,一邊是產業最大金主親口降溫,一邊是從業者呼籲停止吹牛,敘事修正期看來正式開始。
歸剛點評|把裁員當 AI 轉型成果來記帳的公司,都該看看連 Meta 都認錯。agent 能力是真的在進步,但「三到六個月就好」這句話 Zuckerberg 已經說過不只一次。台灣企業導入 AI 的合理姿勢是流程改造優先、人力調整殿後,順序反了就是拿營運換新聞稿。
產品
Midjourney 釋出近二十分鐘的浸水式超音波掃描儀幕後影片,由身兼公司工程師的 YouTuber 主講,秀了大量硬體組裝細節,但專家先前質疑的物理與成像問題幾乎全數略過。
以生成圖片聞名的 Midjourney 釋出一支近二十分鐘的幕後影片,展示它先前發表的浸水式超音波醫療掃描儀。影片由科技 YouTuber Marcin Plaza 主講,他同時也是 Midjourney 的工程師,片中直白形容這台機器是把幾十支超音波探頭「拆開來、拍在一個帶升降梯的豪華熱水缸上」,後端接的是市售電腦與樹莓派。公司計畫先把機器鋪進 spa 會館,願景是用便宜、無輻射的精細成像改變醫療。
The Verge 的評語很不客氣:硬體秀得很多,證據依然很少。掃描儀首次發表時,影像專家就對其物理原理與成像品質提出一連串疑問,例如全身浸水掃描的訊號處理難度、與現有醫療級超音波的解析度差距,這支影片幾乎全部略過,只給了用成像假體驗證結構分離度的片段。
把首發場域選在 spa 而非醫院,是聰明也是心虛:消費級健康體驗的監管門檻遠低於醫療器材,不需要臨床試驗背書就能開張。全身掃描健檢這門生意本身也有爭議,過度檢查與偽陽性帶來的後續醫療成本,在放射科學界討論多年。生圖公司跨界做醫療硬體的勇氣值得記錄,但在拿出對照數據之前,把它當成高級健檢玩具比較安全。
歸剛點評|醫療器材的貨幣是臨床證據,YouTube 幕後影片再誠懇也換不了照。它避開醫院走 spa,等於自己承認短期內過不了醫材關。想跟進「AI+硬體+健康」的團隊可以學它的社群操作,別學它的監管路徑。
工具
Safari Technology Preview 247 內建 Safari MCP 伺服器,任何相容 MCP 的 agent 都能直連 Safari 視窗,取得 DOM、網路請求、截圖與 console 輸出,讓除錯迴圈不用再人肉跳窗。
WebKit 團隊七月一日宣布,Safari Technology Preview 247 內建了 Safari MCP 伺服器,讓開發者的 coding agent 直接連上一個 Safari 瀏覽器視窗,即時取得 DOM 結構、網路請求、截圖與 console 輸出。只要是相容 Model Context Protocol 的客戶端都能接,不限特定工具。
官方部落格描述的痛點每個前端工程師都熟:看到頁面壞掉、開 console 追、點進 styles 分頁、回編輯器改、再重新整理,或者截圖貼給 agent、描述問題、祈禱它改對,改不對就整套再來一輪。MCP 伺服器把這個迴圈自動化,agent 自己就能看到程式碼在 Safari 裡實際渲染成什麼樣子,開發者可以待在終端機裡不用跳窗。
官方點名的用途包括 Safari 本身的網頁開發,以及跨瀏覽器相容性測試——只在單一瀏覽器測試就會漏掉其他引擎的錯誤,現在讓 agent 順手檢查 WebKit 渲染成本大幅降低。MCP 由 Anthropic 在二〇二四年底提出,如今連蘋果都把它當內建功能出貨,事實標準的地位大概沒有懸念了。對照本站報導過的各家瀏覽器 agent 工具,瀏覽器與 agent 的邊界正在快速融掉。
歸剛點評|蘋果不是追風口的公司,它願意把 MCP 做成 Safari 內建,等於官方認證這條協定會留下來。前端團隊的實際紅利是 WebKit 相容性測試終於能塞進 agent 工作流,「在我的 Chrome 上是好的」這句話的藉口空間又變小了。
工具
開源代理 pxpipe 把 Claude Code 請求中肥大的系統提示、工具文件與舊歷史渲染成 PNG 再送出,利用圖片 token 按像素計價的特性,密集文字內容可達每 token 約 3.1 字元的壓縮率。
GitHub 專案 pxpipe 登上 Hacker News 熱榜,標題就是賣點:把程式碼轉成圖片讓模型自己 OCR,Fable 成本現砍六成。原理是圖片的 token 費用由像素尺寸決定,跟裡面塞了多少文字無關;實測在真實 Claude Code 流量上,程式碼、JSON 與工具輸出這類密集內容,每個圖片 token 可以裝下約三點一個字元,純文字則大約一個 token 一個字元,中間就是套利空間。
pxpipe 的形態是本機代理:請求離開你的機器之前,把其中肥大的部分——系統提示、工具文件、較舊的對話歷史——改寫成緊湊的 PNG 圖片。作者給的實例是約兩萬五千個文字 token 的內容,渲染成圖片後只剩約兩千七百個圖片 token,每個請求都對照 count_tokens 的反事實基準來計算省了多少。作者也強調省幅取決於工作負載,密集內容賺最多,稀疏或小型請求會原樣放行。
本站第 24 期才報過靠精簡輸出省下六成五 token 的「穴居人」skill,省 token 儼然成為 Fable 漲價前的全民運動。套利招式的風險同樣明顯:模型讀圖的理解品質是否與讀文字完全等價、計價規則哪天改成看圖片內容而非像素,套利空間都可能一夜蒸發。短期真香,長期別把架構押在計價漏洞上。
歸剛點評|用多模態計價規則反過來壓成本,是很漂亮的駭客思維,也反映 Fable 級模型的單價已經高到值得這樣折騰。可以拿去試,但要有隨時失效的心理準備;真正的長期解還是模型商把上下文計價做合理。
硬體
工程師 jamesob 開源自宅跑前沿開源模型的完整攻略:兩千美元跑 Qwen 與本機語音轉文字,四萬美元用四張 RTX PRO 6000 共 384GB VRAM 跑量化版 GLM-5.2,含 BOM、BIOS 設定與踩坑筆記。
工程師 jamesob 把自己在家跑前沿開源模型的完整經驗開源成一份攻略,登上 Hacker News 熱榜。他給了兩個價位的答案:約兩千美元買兩張 RTX 3090 湊 48GB VRAM,就能跑 Qwen3.6-27B 加上 whisper-large-v3 的本機語音轉文字,已經非常夠用;約四萬美元上四張 RTX PRO 6000 湊 384GB VRAM,跑量化過的 GLM-5.2,他的評價是體感接近 Claude Opus 等級,速度約每秒八十個 token、上下文長度可拉到四十六萬。
省錢的巧思在基座:因為記憶體現在貴得離譜,他刻意用上一代 EPYC 加 eBay 淘來的 DDR4 組基礎系統,只花五千六百美元,把預算全部灌進 VRAM。另一個少見的選擇是用 c-payne 的 PCIe4 交換器讓 GPU 之間點對點直通,張量平行的 allreduce 不用繞過 PCI 根複合體,降低卡間延遲。攻略連 BIOS 分岔設定、關 IOMMU 避免 NCCL 卡死、在 110V 電路上限功耗這些坑都寫了。
開頭那句「如果 Dario 和 Altman 讓你心口發熱(他們應該要),往下讀」講明了動機:對雲端巨頭的依賴焦慮正在把一批人推向本機。對資料不能出門的行業——醫療、法務、金融——這份 BOM 等於一張現成的採購單,四萬美元換一台不用把資料交出去的準前沿模型工作站,帳其實算得過來。
歸剛點評|重點是「接近 Opus」這四個字如今用消費級管道就買得到,開源模型與硬體攻略的成熟度已經到位。搭配今天 HN 上「保護本機 AI 權利」的倡議一起看,本機化是這波最值得台灣中小企業認真評估的路線,資料主權跟訂閱費一次解決。
開源
非營利組織 Current AI 發布 Gap Map v0.1,深度盤點 266 個軟體工具、85 個模型、50 個資料集與 20 個硬體專案,用 14 個類別畫出開源 AI 生態的現況與缺口,底層資料以 MIT 授權全數公開。
Simon Willison 介紹了 Current AI 剛發布的 Gap Map。Current AI 自稱是「替 AI 打造公共選項的全球夥伴關係」,二〇二五年二月在巴黎 AI 行動峰會上以非營利形式成立,目前已獲承諾的資金達四億美元。Gap Map v0.1 深度盤點了 421 項產品:266 個軟體工具與函式庫、85 個模型、50 個資料集、20 個硬體專案,出自 228 個組織,再依模型元件、產品體驗、基礎設施三層共十四個類別排列。
地圖的野心在「缺口」二字:除了已深入研究的四百多項,另有約兩萬四千四百個開源 AI 產物被列為未分類的長尾,等待逐一研究與引用後才給評分。換句話說,它想回答的問題是開源世界哪些環節已經有堪用的公共選項、哪些環節還是商業封閉產品獨大,缺口在哪裡就往哪裡投資源。
Willison 認為地圖本身好玩,但更值錢的是底層資料:一千一百八十四個 YAML 檔連同蒐集用的 notebook 與 schema,以 MIT 授權放在 GitHub 的 currentai-org 帳號下,光是追蹤清單就涵蓋一萬六千多個 GitHub 倉庫,他已示範用 Datasette Lite 直接載入探索。對照今天同日的本機 LLM 攻略與「本機 AI 權利」倡議,開源陣營從基礎設施到論述都在成形。
歸剛點評|拿四億美元先畫地圖再打仗,是聰明的打法:告訴全世界開源 AI 缺什麼,等於替資助者與開發者標好靶位。想做開源專案又不知道做什麼的團隊,直接翻這張圖找沒人佔的格子,比追熱點有效率。
觀點
Simon Willison 從與 Claude Code 團隊的爐邊對談帶回實用建議:與其寫死規則指揮 Fable 何時寫測試,直接授權它自行判斷效果更好;另一招是讓 Fable 自主決定把小任務下放給低階模型跑子代理省錢。
Simon Willison 分享他在 AIE 大會主持爐邊對談時,從 Claude Code 團隊成員 Cat Wu 與 Thariq Shihipar 那裡聽來的心法:讓 Fable(某種程度上也包括 Opus)用自己的判斷力工作,別事事下指導棋。他們舉的例子是測試——你可以規定「大功能才寫自動化測試、小改動不用」,但實務上直接告訴 Fable「自行判斷何時該寫測試」,效果更好。
第二招來自 Jesse Vincent,目標是在 Fable 漲價前省下寶貴的 token:告訴 Fable 把較小的編碼任務交給低階模型跑子代理,讓它自己判斷該用哪一級的模型。Willison 實際對 Claude Code 下了這個指示,模型隨即把這條偏好寫進專案記憶檔,之後的實作工作會自動下放給便宜模型,判斷、審查與統整則留在主迴圈。
兩條建議指向同一個轉變:提示工程的重心從「寫規則」移向「授權判斷」。模型能力到了某個水位之後,人類把邊界條件寫得越細,反而越容易框住它的表現;把目標講清楚、把裁量權交出去,成了官方團隊自己認證的最佳實踐。搭配本期 pxpipe 的圖片壓縮省錢術一起看,Fable 漲價前的省錢學已經自成一個文類。
歸剛點評|工具作者親口說「別微管理它」,值得所有還在寫三頁 prompt 規則的人重讀一次。模型下放任務給便宜模型這招現在就能抄,省的是真金白銀。管理 AI 越來越像管理人:講目標、給授權、看結果。
觀點
成長專家 Elena Verna 撰文戳破圈內浮誇風:她逢人宣稱 AI 改變人生就要求「示範給我看」,結果多半只是摘要 Slack、回信與排程掃描等基本工作流,真正離不開的用法少之又少。
成長圈知名操盤手 Elena Verna 發文開砲,標題直白:請停止 AI 自信劇場。她回顧這幾年的敘事輪替——AI 先是要毀掉教育,接著依序要消滅作家、工程師、設計師、產品經理與業務,然後 SEO 要死、SaaS 要死,市場信了還真的跌掉不少錢,如今則輪到「人人都需要一個 AI agent」,偏偏九成九的人根本說不清 agent 是什麼。
她的檢驗方法簡單粗暴:每當有人說 AI 改變了他的人生,她就回一句「好啊,示範給我看」。結果多數人秀出來的是摘要 Slack、代回郵件、定時掃描、查資料訂東西這類基本工作流。有用嗎?有。但她真正想看的是那種「明天拿走你的工作就會垮掉」的關鍵用法,符合標準的清單短得可憐,而噪音卻始終開在最大聲。
她強調自己就在 AI 公司上班、整天用 AI 寫作、分析、做產品,連她都常覺得別人好像都破解了 AI 密碼、只有自己還在用教學版。文章的結論是這種集體表演已經弊大於利:它製造的焦慮讓人為了面子誇大用法,反而淹沒了那些真正值得推廣的實用案例。對照同日 Zuckerberg 對內承認 agent 進度不如預期,檯面上下的溫差正在收斂。
歸剛點評|「示範給我看」是對付 AI 吹牛最便宜的照妖鏡,開會就能用。多數人的 AI 用法很普通這件事本身很正常,工具紅利本來就是慢慢長出來的;與其焦慮別人的劇場,不如把自己那兩三個真正有用的工作流打磨到深。
工程
工程師 theahura 發文分享數月實測結果:在 SWE 任務上,給 agent 搜尋過往 session 逐字稿的能力帶來零效益,甚至可能更糟;該記的是程式碼與決策文件這類工件,而非過程碎念。
工程師 theahura 發表了一個讓自己難堪的實測結論:只要 agent 已有其他形式的上下文,再給它搜尋過往 session 逐字稿的能力,在軟體工程任務上的效益是零;想自動爬逐字稿來改善 agent 上下文,只要沒有人類把關,同樣看不到什麼好處,數月的對照測試甚至顯示可能讓模型表現更差。
難堪之處在於他的公司就是圍繞這個概念建產品的,他曾經到處宣講「session 逐字稿是新石油」、比程式碼本身更值錢。業界同路人不少,常見架構是把全組織的逐字稿存進資料庫,前面架向量、全文或 SQL 檢索,野心大的三種全上再加知識圖譜,最後用 MCP 或 CLI 暴露給 agent——他的結論是這一整套在他們手上沒有產生差異。
他給的解釋是團隊真正在乎的是「工件」:程式碼、決策文件、可執行的產出,而逐字稿裡大量是探索過程的草稿與碎念,訊噪比太低。他的陰性結果恰好跟本期 HuggingFace 熱門論文 AutoMem 形成對話:後者主張記憶管理是需要訓練的技能,記什麼、何時取、怎麼組織都得學,而非把東西堆進資料庫就叫記憶。做 agent 記憶層的新創該把這兩篇並排讀。
歸剛點評|第一手陰性結果比十篇看多論文都珍貴,尤其出自一家押注在相反假設上的公司。給所有做「AI 記憶」的團隊一句話:存工件、別存過程。也提醒採購方:聽到「組織知識全部餵給 AI」的簡報,先問有沒有對照組。
研究
HuggingFace 熱門論文借用認知科學的「後設記憶」概念,主張 LLM 的記憶專長——記什麼、何時取、如何組織——是可以訓練的技能,並把檔案系統操作升格為一級記憶動作。
HuggingFace 每日論文榜上的 AutoMem 提出一個換位思考:人類的記憶專長是學來的技能,知道什麼值得記、什麼時候該回想、知識要怎麼組織,認知科學稱之為後設記憶。論文把同一套視角搬到大型語言模型上,主張記憶管理應該被當成可訓練的技能來對待,而非外掛一個檢索資料庫就了事。
做法上,AutoMem 把檔案系統操作升格為一級的記憶動作,讓模型透過建檔、改檔、整理目錄這類具體操作來學習管理自己的長期知識,記憶的組織方式由模型在訓練中自己習得,而非工程師預先設計好的固定架構。AutoMem 押注的是「會整理」比「存得多」重要,跟目前主流的向量檢索式記憶層拉開了明顯的方法差距。
把它跟本期那篇「逐字稿記憶無用論」的實測並排讀特別有意思:一線團隊發現把過程全存起來給 agent 搜沒有用,而 AutoMem 的答案是記憶需要主動的編碼與組織策略,兩者從相反方向指向同一個結論——記憶的價值在管理,堆料沒有用。agent 記憶這個題目今天在學界與業界同時被重新定義。
歸剛點評|agent 記憶是目前最擁擠也最混亂的賽道,AutoMem 的「技能說」給了一個清爽的理論框架。對照實務界的陰性結果,方向感很清楚:下一代記憶層的關鍵字是策略與組織,做檢索堆疊的新創得重想護城河。
研究
現有深度搜尋基準假設使用者的查詢完整明確,DiscoBench 補上真實世界的缺角:評測搜尋 agent 能否辨識模糊需求、在對的時機向使用者提出澄清問題。
大型語言模型驅動的搜尋 agent 越來越常被拿來解複雜的資訊需求,多步檢索加推理已是標配。HuggingFace 熱門論文 DiscoBench 指出現有評測的一個系統性盲點:幾乎所有基準都假設使用者的查詢是完整、明確的,但真實世界的查詢常常缺關鍵條件、帶著模糊指涉,agent 悶著頭搜出來的答案再漂亮也可能答非所問。
DiscoBench 的設計重點是「該問就問」:評測 agent 能否辨識查詢中的不確定性,判斷哪些缺口必須向使用者澄清、哪些可以自行合理假設,並在多步搜尋流程中把澄清對話安排在對的時機,等於把「會不會反問」從產品體驗的軟指標,變成可以量化比較的硬能力。
工程上這是所有做 deep research 類產品的人都撞過的牆:agent 要嘛過度發問把使用者煩死,要嘛自作主張搜錯方向浪費幾分鐘的等待。有了專門基準,模型廠與應用層終於可以在同一把尺上調這個平衡。順帶一提,本站在多期報導裡提過各家深度研究工具的體驗差異,發問時機正是高下立判的環節之一。
歸剛點評|「知道自己不知道、然後開口問」是 agent 從工具變同事的分水嶺。做搜尋與研究型產品的團隊值得把這個基準納入回歸測試;使用者端的啟示則是:會反問你的 agent,通常比悶頭猛跑的值得信任。
研究
論文提出長時程 LLM agent 的記憶是一種契約——規定未來每個決策能看到什麼。最普遍的「全部塞進提示」做法讓上下文變成一鍋粥,AgenticSTS 提供有界記憶的受控測試環境。
HuggingFace 熱門論文 AgenticSTS 給 agent 記憶下了一個精準的定義:長時程 agent 的記憶是一份契約,規定未來的每一個決策被允許看到什麼。最簡單的契約就是把過往的觀察、工具呼叫與反思全部附加到每個提示裡,好處是什麼都查得到,代價是上下文變成一鍋雜燴,單一資訊對決策的影響再也無法分離。
論文據此打造了一個有界記憶的測試場:限制 agent 在長時程任務中能攜帶的記憶容量,逼它做出取捨——哪些資訊值得留在契約裡、哪些該丟。受控環境的好處是可以把「記憶策略」這個變因單獨拉出來量測,而非混在模型能力、工具品質等一堆因素裡看總分。
今天的論文榜像是約好了一樣:AutoMem 說記憶管理是可訓練的技能,DiscoBench 說 agent 要學會發問補資訊,AgenticSTS 說記憶是需要設計的契約,加上業界那篇逐字稿無用論,四篇從理論、評測到實戰把 agent 記憶這個題目翻了一輪。共同指向的方向是:無限堆上下文的時代要結束了,接下來比的是取捨的紀律。
歸剛點評|「記憶即契約」這個框架值得每個做長時程 agent 的工程師寫在白板上:你給模型看什麼,就是在替它的下一步負責。有界記憶測試場也給了新創一個務實的驗收方法,別再拿玩具任務吹自家記憶層。
研究
臨床影像推理的後訓練多半只看最終答案對錯,稀疏的回饋讓模型難以定位是哪一步推錯。論文提出步驟感知的強化學習,逐步給予信用分配,阻斷失誤在推理鏈中的連鎖放大。
多模態大型語言模型在臨床影像推理上展現潛力,但 HuggingFace 熱門論文指出現行後訓練管線的結構性缺陷:多數方法以結果為中心,靠最終答案的對錯或整段序列的偏好來訓練,回饋訊號稀疏,模型推理鏈中間哪一步走歪了根本無從定位,一步看錯往往一路錯到底,形成失誤的連鎖放大。
論文的處方是步驟感知的強化學習:把信用分配細化到推理的每一步,讓模型在中間環節就收到訊號,及時修正而非等到最終答案揭曉才被整段懲罰。醫療場景特別需要這種細粒度——判讀一張影像的流程包含定位病灶、描述特徵、鑑別診斷等多個環節,臨床上要的是每一步都站得住,而非碰運氣的最終正解。
從工程視角看,這是把「過程監督」的思路推進醫療多模態領域,與近年數學推理領域用過程獎勵模型的路線一脈相承。醫療 AI 的落地卡點從來都在可信度與可稽核性,一個能指出「錯在第幾步」的訓練框架,同時也是一個能向醫師解釋推理過程的框架,監管溝通的價值可能比跑分更大。
歸剛點評|醫療 AI 要過的坎是「為什麼錯」而非「錯幾題」,步驟級的信用分配正面回答了這件事。台灣醫療影像團隊不少,這條過程監督路線值得跟;它同時暗示通用 agent 的訓練也會往步驟級回饋走,一步一步教比看結果打分有效。
研究
醫療基礎模型幾乎清一色是自迴歸架構,這篇論文把混合專家的離散擴散語言模型改造來做互動式放射科報告草擬,雙向去噪的生成方式天然適合醫師反覆修訂的場景。
擴散語言模型的生成方式跟主流的自迴歸模型完全不同:後者從左到右逐字吐出,前者則像在一張 token 畫布上雙向去噪,整段文字同時成形、可以就地塗改。HuggingFace 熱門論文指出,這條路線在通用領域已經追上自迴歸生成的競爭力,但醫療基礎模型至今幾乎全數停留在自迴歸架構,於是他們把一個混合專家的離散擴散模型改造到放射科場景。
選放射科報告當戰場很有道理:報告撰寫天然是互動式、反覆修訂的流程,醫師常常先有幾個確定的發現,再回頭補充措辭、修改結論。自迴歸模型改一處就得從那裡往後全部重生,擴散模型的畫布式生成則可以固定醫師已確認的片段、只重寫需要調整的區塊,跟臨床工作流的貼合度高出一截。
放射科是醫療 AI 滲透最深的科別,報告生成工具的競爭已經從「寫得出來」進入「改得順手」的階段。架構層的這一步棋提醒大家:自迴歸不是語言生成的唯一解,在需要局部編輯、結構約束的專業文件場景,擴散式生成的工程優勢正在浮現,法律與金融文件大概是下一批試驗田。
歸剛點評|「可以就地改」對專業文件是殺手級特性,醫師不想要重寫全文的助手,想要聽話的橡皮擦加鋼筆。台灣的醫療報告 AI 若還在純自迴歸架構上疊 prompt,值得把這條技術路線放進雷達。
工具
開源 skill 專案 graphify 支援 Claude Code、Codex、Cursor 等多家 coding agent,把程式碼、SQL schema、腳本、文件、論文甚至影音,統一轉成一張可查詢的知識圖譜。
GitHub 趨勢榜上的 graphify 是一個給 AI 編程助手用的 skill,支援面很廣:Claude Code、Codex、OpenCode、Cursor、Gemini CLI 等主流工具都能裝。它做的事情一句話講完——把任何一個資料夾裡的內容變成可查詢的知識圖譜,吃得下程式碼、SQL schema、R 腳本、shell 腳本、文件、論文,連圖片與影片都收。
賣點在「一張圖」:應用程式碼、資料庫結構與基礎設施設定進到同一個圖譜裡,agent 查詢時能沿著關聯走,例如從一支 API 函式追到它讀寫的資料表、再追到部署設定,而非在一堆檔案的全文檢索結果裡自己拼湊。對於接手陳年大型專案的場景,這種結構化的全景圖正是 agent 最缺的東西。
把它放進本期的脈絡看更有意思:業界剛用實測宣告「逐字稿記憶無用」,graphify 代表的正是被看好的那一側——工件的結構化表示。程式碼、schema、文件都是工件,把工件之間的關係建成圖,比把對話過程堆進向量庫更接近工程師真正的心智模型。skill 生態的成熟速度也值得記一筆,跨五、六家 agent 平台通用的工具開始變成常態。
歸剛點評|agent 讀懂大型舊專案的瓶頸從來是「關係」而非「內容」,知識圖譜對到了痛點。跨平台 skill 是聰明的發行策略,不綁單一 agent 生態。接維護案的台灣接案圈可以直接試,交接文件沒人寫的老專案就是它的主場。