歸剛誒AI

歸剛欸,AI 又進步了——每天幫你盯 AI 圈的台灣人日報

← 回首頁 · 回第 25 期(2026-07-04)
資安・2026-07-04

Anthropic 公開 Fable 5 資安護欄細節,提出首個「越獄嚴重度分級」框架草案

Anthropic 公開 Fable 5 資安護欄細節,提出首個「越獄嚴重度分級」框架草案

Anthropic 七月二日發文說明 Claude Fable 5 已重新部署、恢復全球所有用戶可用,並藉機公開兩件事:第一是隨模型上線的資安防護細節,也就是負責偵測與攔截危險網路安全用途的安全分類器,這次給出一份明確清單,列出分類器設計上要防止、以及刻意不防的危害類型;第二是一份與 Glasswing 夥伴合作起草的 AI 越獄嚴重度分級框架早期版本。

資安是典型的雙重用途領域:讓防禦方掃自家程式碼找漏洞的能力,換一雙手就是攻擊前置作業。Anthropic 的做法是在模型旁邊掛分類器做行為攔截,而非把能力從模型裡拔掉。至於越獄,指的是用非常規提示繞過護欄、解鎖被封鎖行為的手法,嚴重程度落差很大,有的只解鎖輕微越界,有的能一口氣打開大範圍危險輸出,但業界至今沒有共通的描述語言。

分級框架的用意就在補這個洞:讓 AI 公司與政府談論某個越獄的風險時,能用一致的度量衡。Anthropic 表明目前只是拋磚引玉,歡迎學界、業界與公民社會批評指教,並同步開了 HackerOne 計畫,讓資安研究者提交在 Fable 5 上發現的網路類越獄。對照本站先前報導的 Fable 5 上線與下架風波,這波資訊揭露算是把當初「為什麼要加護欄」的帳目攤開來給大家看。

歸剛點評|越獄嚴重度分級是目前第一份想當「共通語言」的框架草案,做資安的朋友值得直接讀原文,也多了 HackerOne 這條正式回報管道。廠商自己攤開「防什麼、不防什麼」的清單,比空喊安全有誠意,後續就看其他實驗室跟不跟。
來源:Anthropic

同期其他文章