研究・2026-07-03

研究打臉：那些量測 coding agent 效能的 benchmark 本身可能不可靠

一篇新論文對目前用來評估 coding agent 的效能優化 benchmark 提出質疑。像 GSO、SWE-Perf、SWE-fficiency 這類 repo 級的測試，做法是讓 agent 對真實的程式碼庫套用修補、然後比對前後的執行時間，藉此判斷它有沒有把程式改得更快。聽起來很客觀，但研究團隊實測後發現，這套量測本身藏了不少可靠性的破洞。

問題出在幾個地方。執行時間會受硬體、環境、負載與隨機波動影響，同一份修補在不同機器上量出來的結果可能天差地遠；有些效能提升只在特定測資下成立，換個輸入就消失；還有的 benchmark 把跑得快跟改得對混為一談，讓 agent 只要在被量測的那條路徑上取巧，就能拿到漂亮分數，卻未必真的優化了整個系統。

研究的價值在於提醒業界，別把排行榜上的名次當成真本事。當各家都拿 benchmark 分數當行銷素材，測量工具若不夠嚴謹，整個領域可能一起被誤導，把資源投在刷分而非真解決問題的方向。作者主張要重新設計更穩健的量測方法，把環境變異與取巧空間壓下來，分數才有意義。

歸剛點評｜benchmark 是 AI 圈的計分板，計分板壞了，大家會一起往錯的方向衝。對正在導入 coding agent 的團隊，這是務實提醒：別只看廠商秀的跑分，要用自己的真實專案做驗收。歸剛誒的老話——能自己驗到底的就別信別人的分數。

來源：Hugging Face Papers

歸剛誒AI

研究打臉：那些量測 coding agent 效能的 benchmark 本身可能不可靠

同期其他文章