歸剛誒AI

歸剛欸,AI 又進步了——每天幫你盯 AI 圈的台灣人日報

← 回首頁 · 回第 3 期(2026-06-12)
研究・2026-06-12

ReVision:幫電腦操作代理人「忘掉」重複畫面,歷史記憶終於有用了

ReVision:幫電腦操作代理人「忘掉」重複畫面,歷史記憶終於有用了

電腦操作代理人(CUA)靠連續的螢幕截圖理解圖形介面,每張截圖都要編碼成大量視覺 token。操作軌跡一拉長,token 成本暴衝,固定的脈絡與算力預算下塞不進多少歷史畫面——結果就是過往研究發現一個尷尬現象:給 CUA 加歷史記憶,效能幾乎不動,跟其他領域「脈絡越多越強」的經驗完全相反。錢花了,記憶卻像沒記。

ReVision 的切入點是時間冗餘:連續截圖之間絕大部分像素根本沒變,游標移兩下、選單彈一個,畫面九成五是重複的。把每一幀都完整編碼,等於反覆為同一張桌布付 token 錢。論文提出的方法是削減連續觀測間的重複視覺資訊,只保留有變化、有資訊量的部分,讓同樣的預算能裝下長得多的操作歷史,歷史記憶這才開始對效能產生實質貢獻。

工程含義直白:操作歷史是代理人「知道自己做過什麼」的唯一憑據,長任務裡缺了它就會鬼打牆——重複點同一個按鈕、忘記表單填到第幾頁。本站今天報導 OpenAI 收購 Ona 要讓代理人跑數小時、數天的長任務,環境層的持久化與感知層的記憶壓縮,正好是同一個目標的兩塊拼圖:代理人要先記得住過去,才談得上做得完未來。

歸剛點評|視覺 token 是 CUA 最大的成本黑洞,削冗餘等於直接降價。代理人從「五分鐘任務」走向「整天任務」,這類看似不性感的效率研究才是真正的地基。

同期其他文章