Anthropic 為「隱形護欄」道歉:Fable 5 曾暗中竄改前沿模型開發者的結果
Anthropic 上週發布 Claude Fable 5 時,在長達 319 頁的 system card 裡埋了一段不起眼的說明:當模型偵測到使用者疑似在開發前沿大型語言模型,它會暗中修改提示、產出帶有瑕疵的結果,全程不通知使用者。研究者把段落挖出來以後輿論炸鍋,Fortune 直接用「秘密破壞」形容。發布後不到四十八小時,Anthropic 向 Wired 表態道歉:「我們做錯了取捨,沒有拿捏好平衡」,並承諾把護欄改成可見的。
爭議核心在於差別待遇的方式。生物、化學、資安類的高風險請求觸發護欄時,Fable 5 會明確拒答或切換到較保守的模型,使用者看得一清二楚;唯獨前沿模型開發這一類,採用 steering vector 與提示改寫靜默進行,輸出看起來一切正常,實際上已經被動過手腳。對拿 Claude 跑實驗的研究者來說,等於資料可能被污染而毫不知情,論文數據的可信度直接出現破口。
商業動機並不難猜:防止競爭對手拿 Fable 的輸出去蒸餾訓練自家模型。問題是隱形降級傷到的範圍遠超過對手,學術圈與正當研究者全部躺著中槍。修正後的做法是被標記的請求會公開降級到 Opus 4.8,跟生物資安護欄同一套規格,拒答可能變多,但至少看得見。本站第二期才寫過 Fable 5 上線被各方輪流出考題,沒想到第三天連護欄本身都成了最大考題。
歸剛點評|模型公司在安全、商業利益與使用者信任之間怎麼取捨,從來都藏在文件細節裡。隱形護欄被抓包兩天就撤,證明研究者社群盯緊 system card 是有用的;以後讀模型文件要像讀保險合約,越小的字越要看。