AI 到底會不會「越用越聰明」?兩個新基準給出一冷一熱的答案
「模型能不能在使用中持續變聰明」是 AGI 路線圖上的關鍵指標,本週兩個新基準給出方向相反的讀數。ByteDance Seed 的 EdgeBench 在 134 個真實世界環境裡量測跨越一整天時程的任務表現,結論偏熱:模型的學習速度約每三個月翻倍,而且增益無法用重複採樣解釋——社群已把它視為 METR 式時程研究的重要補充,討論度快速竄升。
Epoch AI 的 EBR-bench 則潑了冷水:讓模型反覆遊玩桌遊《Earthborne Rangers》並嘗試從失敗中學習,結果目前的前緣系統在沒有專門強化學習訓練的情況下,看不出明顯的跨局進步。同一週、同一個問題、兩個對立的讀數,分歧點可能在任務型態——EdgeBench 量的是工具性任務的經驗累積,EBR-bench 考的是策略遊戲的失敗歸因,後者對「真正的學習」要求更苛刻。
把昨天本站報的 AutoMem(把記憶管理當可訓練技能)與 AgenticSTS(有界記憶測試場)排進來看,整個研究社群正在從「agent 有沒有記憶」升級到「記憶有沒有轉化成能力」的量測層次。持續學習若被證實可規模化,模型的價值曲線會從「出廠即巔峰」變成「越用越值錢」,商業模式跟著改寫;若證偽,現行「靠重訓升級」的節奏就還會持續很久。
兩個基準都剛出爐,等更多模型跑完再下結論不遲,但問題本身已經站上舞台中央。
歸剛點評|一冷一熱正好提醒大家:持續學習的量測結果高度依賴考題設計,單一基準的結論都先別買單。對使用者的實務意義是——目前的 agent 記憶功能請當「便利貼」用,別當「會成長的員工」指望。
來源:smol.ai AINews · Epoch AI