研究打臉:那些量測 coding agent 效能的 benchmark 本身可能不可靠
一篇新論文對目前用來評估 coding agent 的效能優化 benchmark 提出質疑。像 GSO、SWE-Perf、SWE-fficiency 這類 repo 級的測試,做法是讓 agent 對真實的程式碼庫套用修補、然後比對前後的執行時間,藉此判斷它有沒有把程式改得更快。聽起來很客觀,但研究團隊實測後發現,這套量測本身藏了不少可靠性的破洞。
問題出在幾個地方。執行時間會受硬體、環境、負載與隨機波動影響,同一份修補在不同機器上量出來的結果可能天差地遠;有些效能提升只在特定測資下成立,換個輸入就消失;還有的 benchmark 把跑得快跟改得對混為一談,讓 agent 只要在被量測的那條路徑上取巧,就能拿到漂亮分數,卻未必真的優化了整個系統。
研究的價值在於提醒業界,別把排行榜上的名次當成真本事。當各家都拿 benchmark 分數當行銷素材,測量工具若不夠嚴謹,整個領域可能一起被誤導,把資源投在刷分而非真解決問題的方向。作者主張要重新設計更穩健的量測方法,把環境變異與取巧空間壓下來,分數才有意義。
歸剛點評|benchmark 是 AI 圈的計分板,計分板壞了,大家會一起往錯的方向衝。對正在導入 coding agent 的團隊,這是務實提醒:別只看廠商秀的跑分,要用自己的真實專案做驗收。歸剛誒的老話——能自己驗到底的就別信別人的分數。