DiscoBench:搜尋 agent 什麼時候該反問「你到底想找什麼」
大型語言模型驅動的搜尋 agent 越來越常被拿來解複雜的資訊需求,多步檢索加推理已是標配。HuggingFace 熱門論文 DiscoBench 指出現有評測的一個系統性盲點:幾乎所有基準都假設使用者的查詢是完整、明確的,但真實世界的查詢常常缺關鍵條件、帶著模糊指涉,agent 悶著頭搜出來的答案再漂亮也可能答非所問。
DiscoBench 的設計重點是「該問就問」:評測 agent 能否辨識查詢中的不確定性,判斷哪些缺口必須向使用者澄清、哪些可以自行合理假設,並在多步搜尋流程中把澄清對話安排在對的時機,等於把「會不會反問」從產品體驗的軟指標,變成可以量化比較的硬能力。
工程上這是所有做 deep research 類產品的人都撞過的牆:agent 要嘛過度發問把使用者煩死,要嘛自作主張搜錯方向浪費幾分鐘的等待。有了專門基準,模型廠與應用層終於可以在同一把尺上調這個平衡。順帶一提,本站在多期報導裡提過各家深度研究工具的體驗差異,發問時機正是高下立判的環節之一。
歸剛點評|「知道自己不知道、然後開口問」是 agent 從工具變同事的分水嶺。做搜尋與研究型產品的團隊值得把這個基準納入回歸測試;使用者端的啟示則是:會反問你的 agent,通常比悶頭猛跑的值得信任。