HN 熱議潑冷水評測:「Claude Fable 5 編碼表現只算中段班」
Hacker News 本週另一個熱門話題是一篇唱反調的評測:資安公司 Endor Labs 發表文章,標題直白寫著「Claude Fable 5:編碼任務結果只算中段班」,網址欄裡還帶著「Mythos 等級的炒作」字眼,與鋪天蓋地的好評形成強烈對比,迅速衝上熱榜。
對照組是官方數字:Anthropic 公布 Fable 5 在 SWE-Bench Pro 拿下 80.3% 的最高分,領先 Opus 4.8 的 69.2% 達 11 個百分點,Stripe 還背書說一個原估兩個月的 5,000 萬行 Ruby 程式碼遷移案一天完成。第三方評測與官方基準的落差這麼大,留言區自然吵成一團:有人質疑評測的任務設計,有人反過來質疑官方基準早被「練過題」。
比較持平的讀法是兩邊可能都對:標準化基準測的是模型在熟悉題型上的上限,個別團隊的評測測的是特定工作流下的實際體驗,兩者本來就會出現分歧。Simon Willison 同週的「不屈不撓地積極」觀察(見本期另一條)剛好補上第三個視角——模型的行為風格改變,可能比單一分數更影響使用感受。
工具選型沒有捷徑,拿自己的任務親自跑一輪,比看任何人的分數都準。
歸剛點評|每次新模型發布都會上演同一齣戲:官方基準飛天、第三方評測落地,然後吵評測方法。真正的教訓是基準分數的邊際參考價值一直在掉,能不能用要看你自己的場景,別人的考卷終究是別人的。