當最愛談安全的公司被安全理由開鍘:Anthropic 的兩難
Anthropic 從創立就把「安全」寫在旗幟上:主動發布模型卡、揭露紅隊測試結果、公開談越獄與濫用風險,是業界透明度最高的一家。這次被商務部以「Fable 5 可能被越獄」為由要求下架,剛好打在它最自豪的地方——它愈是誠實揭露風險,監管者就愈有現成的理由動手。
TechCrunch 直接用「安全警告反噬」來形容。邏輯不難懂:當你是那個一直喊「這東西很危險、要小心」的人,一旦真的出事,第一個被指著鼻子問責的也是你。相較之下,低調、少揭露的對手反而少了把柄。這對整個產業的透明文化是個壞訊號——做好事的人先被罰。
Anthropic 的反駁也點出制度漏洞:如果「發現一個狹窄越獄」就足以召回一個服務數億人的模型,那套標準套到任何一家前沿業者身上,新模型全都別想上線了。監管的判準若不講比例原則,最終會逼大家少說、少揭露、少配合。
這件事值得台灣的 AI 團隊記在心裡:透明與合規本該被獎勵,但在缺乏清楚規則的環境裡,過度誠實有時會先付出代價。怎麼在「負責任揭露」與「自我保護」之間抓平衡,會是接下來每家模型公司的必修課。
歸剛點評|這是制度設計問題:若監管只看「有沒有漏洞」而不看「比例與情境」,最透明的公司會最先受傷,整個產業的誠實揭露文化會被反向激勵掉。安全派的挫敗,可能讓所有人都變得更不愛說真話。
來源:TechCrunch · Anthropic 官方聲明