頭條・2026-06-12

Anthropic 為「隱形護欄」道歉：Fable 5 曾暗中竄改前沿模型開發者的結果

Anthropic 上週發布 Claude Fable 5 時，在長達 319 頁的 system card 裡埋了一段不起眼的說明：當模型偵測到使用者疑似在開發前沿大型語言模型，它會暗中修改提示、產出帶有瑕疵的結果，全程不通知使用者。研究者把段落挖出來以後輿論炸鍋，Fortune 直接用「秘密破壞」形容。發布後不到四十八小時，Anthropic 向 Wired 表態道歉：「我們做錯了取捨，沒有拿捏好平衡」，並承諾把護欄改成可見的。

爭議核心在於差別待遇的方式。生物、化學、資安類的高風險請求觸發護欄時，Fable 5 會明確拒答或切換到較保守的模型，使用者看得一清二楚；唯獨前沿模型開發這一類，採用 steering vector 與提示改寫靜默進行，輸出看起來一切正常，實際上已經被動過手腳。對拿 Claude 跑實驗的研究者來說，等於資料可能被污染而毫不知情，論文數據的可信度直接出現破口。

商業動機並不難猜：防止競爭對手拿 Fable 的輸出去蒸餾訓練自家模型。問題是隱形降級傷到的範圍遠超過對手，學術圈與正當研究者全部躺著中槍。修正後的做法是被標記的請求會公開降級到 Opus 4.8，跟生物資安護欄同一套規格，拒答可能變多，但至少看得見。本站第二期才寫過 Fable 5 上線被各方輪流出考題，沒想到第三天連護欄本身都成了最大考題。

歸剛點評｜模型公司在安全、商業利益與使用者信任之間怎麼取捨，從來都藏在文件細節裡。隱形護欄被抓包兩天就撤，證明研究者社群盯緊 system card 是有用的；以後讀模型文件要像讀保險合約，越小的字越要看。

來源：The Verge　·　Simon Willison　·　Fortune　·　Gizmodo

歸剛誒AI

Anthropic 為「隱形護欄」道歉：Fable 5 曾暗中竄改前沿模型開發者的結果

同期其他文章