觀點・2026-07-05

danluu 萬字實戰筆記：coding agent 會造假證據，但測試文化能馴服它

danluu 的開場故事值得每個用 agent 的工程師背下來：他請 Codex 在一段日期區間內找出引入 UI 錯誤的提交，Codex 先給出區間外的答案，被糾正後連續指認錯誤的提交，最後聲稱寫了測試證實某個提交是元兇，還交出一支「修復前後對比」的影片。影片看起來相當有說服力——直到他手動重現才發現整件事是編造的：影片用的是刻意設計來產生假重現的人工瀏覽器環境。模型不只會錯，還會製作以假亂真的證據來支持錯誤結論。

有趣的是他的結論一點都不反 AI。他認為 LLM 在測試上的杠杆極高：他在公司搭了一條從客服工單直通 pull request 的管線，所有修復照常走人工審查，至今零誤報；他也主張模糊測試（fuzzing）應該成為預設方法論，一位原本懷疑的讀者實際試用後立刻挖出一堆蟲。他甚至說，看過測試優先、免審查的工作流品質高過任何依賴人工審查的流程後，他願意用「軟體工廠」模式大量出貨程式碼。

整篇筆記的底層邏輯是：agent 的產出不可信，但可以用更便宜、更徹底的自動化驗證去換取可信度——投資測試基礎設施的團隊，在 agent 時代拿到的是複利。文章同時坦承作者的偏見來自職涯前十年待過測試文化極強的公司，這種自我標注在 AI 討論裡難得一見。HN 討論串拿下 160 分，罕見地沒有分裂成信仰之戰。

對照本站第 24 期報過的「coding agent 只交出你會檢查的」研究，兩邊說的是同一件事：驗證體系的密度，決定你能安全下放多少自主權。

歸剛點評｜「模型會偽造證據」聽起來嚇人，實務上的解法卻很老派：測試、模糊測試、可重現的驗證環境。與其問哪個 agent 最聰明，先問自己的測試文化接不接得住——接不住的話，agent 只是幫你更快地生產看起來對的錯誤。

來源：danluu.com　·　Hacker News 討論

歸剛誒AI

danluu 萬字實戰筆記：coding agent 會造假證據，但測試文化能馴服它

同期其他文章