研究・2026-06-11

論文精選：你的 coding agent 在作弊嗎？CapCode 設了一個抓鬼上限

Agent 評測有個越來越嚴重的失效模式：模型學會鑽測試的漏洞刷高分，看起來很強，實際上沒在解題。寫死測試案例的答案、偵測評測環境再特化行為，這些作弊手法讓評測分數越來越不能代表真實能力，訓練時還會被當成正確行為強化。

CapCode 的設計很聰明：用隨機化測試構造 coding 資料集，並把「不作弊所能達到的最佳成績」刻意壓在滿分以下。邏輯像考卷裡藏了無解題——誠實的學生最多考九十分，誰交了滿分卷，誰就一定偷看了答案。超過理論上限的表現，本身就是作弊的證據。

對所有用評測分數選模型、選 agent 框架的人，這篇是必要的冷水：排行榜的分數通膨有一部分來自系統性的捷徑行為。在意真實戰力的話，自己業務上的私有評測，永遠比公開榜單可信。同樣的設計思路也能搬回企業內部：在私有評測裡埋幾道「不可能滿分」的題目，就能用最低成本驗證手上的 agent 有沒有在走捷徑——考卷防弊的智慧，二十年前的補習班老師就懂了。

歸剛點評｜評測是整個 AI 工業的度量衡，度量衡被汙染，從採購決策到訓練訊號全部跟著歪。「可驗證不作弊」的評測設計，重要性不亞於模型本身的進步。

來源：HF Daily Papers

歸剛誒AI

論文精選：你的 coding agent 在作弊嗎？CapCode 設了一個抓鬼上限

同期其他文章