社群・2026-06-13

HN 熱議潑冷水評測：「Claude Fable 5 編碼表現只算中段班」

Hacker News 本週另一個熱門話題是一篇唱反調的評測：資安公司 Endor Labs 發表文章，標題直白寫著「Claude Fable 5：編碼任務結果只算中段班」，網址欄裡還帶著「Mythos 等級的炒作」字眼，與鋪天蓋地的好評形成強烈對比，迅速衝上熱榜。

對照組是官方數字：Anthropic 公布 Fable 5 在 SWE-Bench Pro 拿下 80.3% 的最高分，領先 Opus 4.8 的 69.2% 達 11 個百分點，Stripe 還背書說一個原估兩個月的 5,000 萬行 Ruby 程式碼遷移案一天完成。第三方評測與官方基準的落差這麼大，留言區自然吵成一團：有人質疑評測的任務設計，有人反過來質疑官方基準早被「練過題」。

比較持平的讀法是兩邊可能都對：標準化基準測的是模型在熟悉題型上的上限，個別團隊的評測測的是特定工作流下的實際體驗，兩者本來就會出現分歧。Simon Willison 同週的「不屈不撓地積極」觀察（見本期另一條）剛好補上第三個視角——模型的行為風格改變，可能比單一分數更影響使用感受。

工具選型沒有捷徑，拿自己的任務親自跑一輪，比看任何人的分數都準。

歸剛點評｜每次新模型發布都會上演同一齣戲：官方基準飛天、第三方評測落地，然後吵評測方法。真正的教訓是基準分數的邊際參考價值一直在掉，能不能用要看你自己的場景，別人的考卷終究是別人的。

來源：Endor Labs　·　Hacker News 討論　·　Anthropic

歸剛誒AI

HN 熱議潑冷水評測：「Claude Fable 5 編碼表現只算中段班」

同期其他文章