研究・2026-06-13

罵過的錯下次還犯？TRACE 把使用者糾正編譯成代理的「執行時鐵則」

用過編碼代理的人都有同一個怨念：明明上次糾正過它，下一個 session 同樣的錯照犯。Hugging Face 本週熱門論文把這個現象量化了——研究者用匿名化的真實使用者摩擦案例建立測試任務，發現即使裝了 Mem0 這類記憶系統，仍有 57.5% 適用的偏好檢查被違反。記憶系統讓代理「想得起來」，但想得起來跟做得到是兩回事。

論文把這個落差命名為「偏好存取」與「偏好遵守」之間的鴻溝，並提出 TRACE（Test-time Rule Acquisition and Compiled Enforcement）：與其把使用者的糾正存成模型自由心證的記憶，乾脆在測試時把糾正萃取成明確規則，編譯進執行時的強制檢查層，違反規則的行為直接被攔下來，跳過「希望模型自己記得」的環節。

設計哲學上是個有趣的轉向：與其追求更聰明的記憶，先承認模型的遵守能力有限，用傳統軟體工程的強制手段補位。TRACE 是即插即用的技能層管線，本週另一篇 cold-start 安全論文（見下條）也指向類似結論——代理的可靠性問題，越來越多解法來自模型外面的工程，而非模型裡面的智慧。

歸剛點評｜「代理會越用越懂你」目前是行銷話術，57.5% 的違反率就是證據。把糾正變成硬規則很務實：你對人類同事也會把重要規範寫進 checklist 而非靠他自覺。買代理產品時可以問一句：你們的偏好是用記的還是用攔的？

來源：Hugging Face Papers

歸剛誒AI

罵過的錯下次還犯？TRACE 把使用者糾正編譯成代理的「執行時鐵則」

同期其他文章