資安・2026-07-04

Anthropic 公開 Fable 5 資安護欄細節，提出首個「越獄嚴重度分級」框架草案

Anthropic 七月二日發文說明 Claude Fable 5 已重新部署、恢復全球所有用戶可用，並藉機公開兩件事：第一是隨模型上線的資安防護細節，也就是負責偵測與攔截危險網路安全用途的安全分類器，這次給出一份明確清單，列出分類器設計上要防止、以及刻意不防的危害類型；第二是一份與 Glasswing 夥伴合作起草的 AI 越獄嚴重度分級框架早期版本。

資安是典型的雙重用途領域：讓防禦方掃自家程式碼找漏洞的能力，換一雙手就是攻擊前置作業。Anthropic 的做法是在模型旁邊掛分類器做行為攔截，而非把能力從模型裡拔掉。至於越獄，指的是用非常規提示繞過護欄、解鎖被封鎖行為的手法，嚴重程度落差很大，有的只解鎖輕微越界，有的能一口氣打開大範圍危險輸出，但業界至今沒有共通的描述語言。

分級框架的用意就在補這個洞：讓 AI 公司與政府談論某個越獄的風險時，能用一致的度量衡。Anthropic 表明目前只是拋磚引玉，歡迎學界、業界與公民社會批評指教，並同步開了 HackerOne 計畫，讓資安研究者提交在 Fable 5 上發現的網路類越獄。對照本站先前報導的 Fable 5 上線與下架風波，這波資訊揭露算是把當初「為什麼要加護欄」的帳目攤開來給大家看。

歸剛點評｜越獄嚴重度分級是目前第一份想當「共通語言」的框架草案，做資安的朋友值得直接讀原文，也多了 HackerOne 這條正式回報管道。廠商自己攤開「防什麼、不防什麼」的清單，比空喊安全有誠意，後續就看其他實驗室跟不跟。

來源：Anthropic

歸剛誒AI

Anthropic 公開 Fable 5 資安護欄細節，提出首個「越獄嚴重度分級」框架草案

同期其他文章