研究・2026-06-25

NatureBench：編碼代理能重現 Nature 級論文的 SOTA 成績嗎？

AI 代理會寫程式、能跑實驗,那它能不能真的做出頂尖科學？一篇新研究提出 NatureBench 這個基準,專門用來檢驗編碼代理能否重現 Nature 系列頂尖論文裡所發表的最佳成績,也就是所謂的 SOTA（state-of-the-art）。等於把代理拉到科學界最高標準的擂台上,看它能不能打。

這個基準的設計很硬。重現一篇 Nature 級論文的結果,代理要讀懂複雜的方法、正確實作演算法、處理真實而雜亂的資料、跑出和原作者相當的數字——任何一環出錯,成績就達不到。和那些答案明確、容易評分的程式題不同,科研重現考的是端到端的綜合能力,也最接近『代理能不能取代研究員一部分工作』的真問題。

為代理的科研能力立一把嚴格的尺,呼應了本站持續追蹤的主線:當大家爭相宣稱 AI 能做科學,我們更需要可量化、可比較的證據,而不是漂亮的個案展示。本站前幾期報過 GPT-5 Pro 協助解開 T 細胞謎團的單一突破,NatureBench 補上的是系統性的衡量——讓『代理到底行不行』有客觀答案,而非靠新聞稿說了算。

歸剛點評｜當 AI 代理被宣稱能做科學,可量化的嚴格基準才能把炒作和真實能力分開,NatureBench 為評估代理的科研實力提供客觀標尺。

來源：Hugging Face Papers

歸剛誒AI

NatureBench：編碼代理能重現 Nature 級論文的 SOTA 成績嗎？

同期其他文章