研究・2026-07-04

DiscoBench：搜尋 agent 什麼時候該反問「你到底想找什麼」

大型語言模型驅動的搜尋 agent 越來越常被拿來解複雜的資訊需求，多步檢索加推理已是標配。HuggingFace 熱門論文 DiscoBench 指出現有評測的一個系統性盲點：幾乎所有基準都假設使用者的查詢是完整、明確的，但真實世界的查詢常常缺關鍵條件、帶著模糊指涉，agent 悶著頭搜出來的答案再漂亮也可能答非所問。

DiscoBench 的設計重點是「該問就問」：評測 agent 能否辨識查詢中的不確定性，判斷哪些缺口必須向使用者澄清、哪些可以自行合理假設，並在多步搜尋流程中把澄清對話安排在對的時機，等於把「會不會反問」從產品體驗的軟指標，變成可以量化比較的硬能力。

工程上這是所有做 deep research 類產品的人都撞過的牆：agent 要嘛過度發問把使用者煩死，要嘛自作主張搜錯方向浪費幾分鐘的等待。有了專門基準，模型廠與應用層終於可以在同一把尺上調這個平衡。順帶一提，本站在多期報導裡提過各家深度研究工具的體驗差異，發問時機正是高下立判的環節之一。

歸剛點評｜「知道自己不知道、然後開口問」是 agent 從工具變同事的分水嶺。做搜尋與研究型產品的團隊值得把這個基準納入回歸測試；使用者端的啟示則是：會反問你的 agent，通常比悶頭猛跑的值得信任。

來源：HuggingFace Papers

歸剛誒AI

DiscoBench：搜尋 agent 什麼時候該反問「你到底想找什麼」

同期其他文章