歸剛誒AI

歸剛欸,AI 又進步了——每天幫你盯 AI 圈的台灣人日報

← 回首頁 · 回第 25 期(2026-07-04)
研究・2026-07-04

DiscoBench:搜尋 agent 什麼時候該反問「你到底想找什麼」

DiscoBench:搜尋 agent 什麼時候該反問「你到底想找什麼」

大型語言模型驅動的搜尋 agent 越來越常被拿來解複雜的資訊需求,多步檢索加推理已是標配。HuggingFace 熱門論文 DiscoBench 指出現有評測的一個系統性盲點:幾乎所有基準都假設使用者的查詢是完整、明確的,但真實世界的查詢常常缺關鍵條件、帶著模糊指涉,agent 悶著頭搜出來的答案再漂亮也可能答非所問。

DiscoBench 的設計重點是「該問就問」:評測 agent 能否辨識查詢中的不確定性,判斷哪些缺口必須向使用者澄清、哪些可以自行合理假設,並在多步搜尋流程中把澄清對話安排在對的時機,等於把「會不會反問」從產品體驗的軟指標,變成可以量化比較的硬能力。

工程上這是所有做 deep research 類產品的人都撞過的牆:agent 要嘛過度發問把使用者煩死,要嘛自作主張搜錯方向浪費幾分鐘的等待。有了專門基準,模型廠與應用層終於可以在同一把尺上調這個平衡。順帶一提,本站在多期報導裡提過各家深度研究工具的體驗差異,發問時機正是高下立判的環節之一。

歸剛點評|「知道自己不知道、然後開口問」是 agent 從工具變同事的分水嶺。做搜尋與研究型產品的團隊值得把這個基準納入回歸測試;使用者端的啟示則是:會反問你的 agent,通常比悶頭猛跑的值得信任。

同期其他文章