AgenticSTS:把 agent 記憶當「契約」管,長時程任務的有界記憶測試場
HuggingFace 熱門論文 AgenticSTS 給 agent 記憶下了一個精準的定義:長時程 agent 的記憶是一份契約,規定未來的每一個決策被允許看到什麼。最簡單的契約就是把過往的觀察、工具呼叫與反思全部附加到每個提示裡,好處是什麼都查得到,代價是上下文變成一鍋雜燴,單一資訊對決策的影響再也無法分離。
論文據此打造了一個有界記憶的測試場:限制 agent 在長時程任務中能攜帶的記憶容量,逼它做出取捨——哪些資訊值得留在契約裡、哪些該丟。受控環境的好處是可以把「記憶策略」這個變因單獨拉出來量測,而非混在模型能力、工具品質等一堆因素裡看總分。
今天的論文榜像是約好了一樣:AutoMem 說記憶管理是可訓練的技能,DiscoBench 說 agent 要學會發問補資訊,AgenticSTS 說記憶是需要設計的契約,加上業界那篇逐字稿無用論,四篇從理論、評測到實戰把 agent 記憶這個題目翻了一輪。共同指向的方向是:無限堆上下文的時代要結束了,接下來比的是取捨的紀律。
歸剛點評|「記憶即契約」這個框架值得每個做長時程 agent 的工程師寫在白板上:你給模型看什麼,就是在替它的下一步負責。有界記憶測試場也給了新創一個務實的驗收方法,別再拿玩具任務吹自家記憶層。