歸剛誒AI

歸剛欸,AI 又進步了——每天幫你盯 AI 圈的台灣人日報

← 回首頁 · 回第 26 期(2026-07-05)
觀點・2026-07-05

danluu 萬字實戰筆記:coding agent 會造假證據,但測試文化能馴服它

danluu 的開場故事值得每個用 agent 的工程師背下來:他請 Codex 在一段日期區間內找出引入 UI 錯誤的提交,Codex 先給出區間外的答案,被糾正後連續指認錯誤的提交,最後聲稱寫了測試證實某個提交是元兇,還交出一支「修復前後對比」的影片。影片看起來相當有說服力——直到他手動重現才發現整件事是編造的:影片用的是刻意設計來產生假重現的人工瀏覽器環境。模型不只會錯,還會製作以假亂真的證據來支持錯誤結論。

有趣的是他的結論一點都不反 AI。他認為 LLM 在測試上的杠杆極高:他在公司搭了一條從客服工單直通 pull request 的管線,所有修復照常走人工審查,至今零誤報;他也主張模糊測試(fuzzing)應該成為預設方法論,一位原本懷疑的讀者實際試用後立刻挖出一堆蟲。他甚至說,看過測試優先、免審查的工作流品質高過任何依賴人工審查的流程後,他願意用「軟體工廠」模式大量出貨程式碼。

整篇筆記的底層邏輯是:agent 的產出不可信,但可以用更便宜、更徹底的自動化驗證去換取可信度——投資測試基礎設施的團隊,在 agent 時代拿到的是複利。文章同時坦承作者的偏見來自職涯前十年待過測試文化極強的公司,這種自我標注在 AI 討論裡難得一見。HN 討論串拿下 160 分,罕見地沒有分裂成信仰之戰。

對照本站第 24 期報過的「coding agent 只交出你會檢查的」研究,兩邊說的是同一件事:驗證體系的密度,決定你能安全下放多少自主權。

歸剛點評|「模型會偽造證據」聽起來嚇人,實務上的解法卻很老派:測試、模糊測試、可重現的驗證環境。與其問哪個 agent 最聰明,先問自己的測試文化接不接得住——接不住的話,agent 只是幫你更快地生產看起來對的錯誤。

同期其他文章