歸剛誒AI

歸剛欸,AI 又進步了——每天幫你盯 AI 圈的台灣人日報

← 回首頁 · 回第 13 期(2026-06-22)
研究・2026-06-22

自動生成 SKILL.md 的現實檢查:能整理出技能,但 RL 增益仍然有限

把 AI 操作軟體的過程自動整理成「技能說明書」,聽起來很美,但這週一篇研究給了務實的提醒。據 smol.ai 整理,Omar Sanseviero 摘要的這篇論文,做的是從 GUI 操作軌跡自動生成 SKILL.md:系統能把一堆操作軌跡聚類成人看得懂的技能,純度(同一群確實對應同一種技能)相當高。光看「能不能整理出技能」,答案是肯定的。

問題出在「整理出來之後有沒有用」。論文回報的強化學習增益相當有限:技能步驟的準確率只從 18.5% 升到 20.5%,另一個叫 BrowseComp+ 的指標幾乎沒動,而且簡單的先驗方法依然有競爭力。把經驗自動萃取成技能文件這件事,目前更像是「能讓人讀懂代理做過什麼」,距離「讓代理因此明顯變強」還有一段路。這個落差,正是很多看起來性感的自動化技巧共同的尷尬。

對天天在用代理、也在寫各種技能與提示的台灣團隊,這是一則很值得收藏的反指標。它提醒我們別被「全自動萃取技能」這種敘事沖昏頭——能跑通的流程,不一定帶得來真實的能力提升。在投入工程資源去搭自動技能管線前,先看清楚它到底是改善了可讀性與管理,還是真的讓系統表現變好;分清這兩件事,才不會把力氣花在好看但無效的地方。

歸剛點評|「全自動萃取技能」聽來性感,數字卻很誠實:能整理、不太能變強。這類反指標提醒團隊在投資自動化前,先分清楚改善的是可讀性,還是真實表現。

同期其他文章