研究・2026-07-05

AI 到底會不會「越用越聰明」？兩個新基準給出一冷一熱的答案

「模型能不能在使用中持續變聰明」是 AGI 路線圖上的關鍵指標，本週兩個新基準給出方向相反的讀數。ByteDance Seed 的 EdgeBench 在 134 個真實世界環境裡量測跨越一整天時程的任務表現，結論偏熱：模型的學習速度約每三個月翻倍，而且增益無法用重複採樣解釋——社群已把它視為 METR 式時程研究的重要補充，討論度快速竄升。

Epoch AI 的 EBR-bench 則潑了冷水：讓模型反覆遊玩桌遊《Earthborne Rangers》並嘗試從失敗中學習，結果目前的前緣系統在沒有專門強化學習訓練的情況下，看不出明顯的跨局進步。同一週、同一個問題、兩個對立的讀數，分歧點可能在任務型態——EdgeBench 量的是工具性任務的經驗累積，EBR-bench 考的是策略遊戲的失敗歸因，後者對「真正的學習」要求更苛刻。

把昨天本站報的 AutoMem（把記憶管理當可訓練技能）與 AgenticSTS（有界記憶測試場）排進來看，整個研究社群正在從「agent 有沒有記憶」升級到「記憶有沒有轉化成能力」的量測層次。持續學習若被證實可規模化，模型的價值曲線會從「出廠即巔峰」變成「越用越值錢」，商業模式跟著改寫；若證偽，現行「靠重訓升級」的節奏就還會持續很久。

兩個基準都剛出爐，等更多模型跑完再下結論不遲，但問題本身已經站上舞台中央。

歸剛點評｜一冷一熱正好提醒大家：持續學習的量測結果高度依賴考題設計，單一基準的結論都先別買單。對使用者的實務意義是——目前的 agent 記憶功能請當「便利貼」用，別當「會成長的員工」指望。

來源：smol.ai AINews　·　Epoch AI

歸剛誒AI

AI 到底會不會「越用越聰明」？兩個新基準給出一冷一熱的答案

同期其他文章