觀點・2026-06-14

當最愛談安全的公司被安全理由開鍘：Anthropic 的兩難

Anthropic 從創立就把「安全」寫在旗幟上：主動發布模型卡、揭露紅隊測試結果、公開談越獄與濫用風險，是業界透明度最高的一家。這次被商務部以「Fable 5 可能被越獄」為由要求下架，剛好打在它最自豪的地方——它愈是誠實揭露風險，監管者就愈有現成的理由動手。

TechCrunch 直接用「安全警告反噬」來形容。邏輯不難懂：當你是那個一直喊「這東西很危險、要小心」的人，一旦真的出事，第一個被指著鼻子問責的也是你。相較之下，低調、少揭露的對手反而少了把柄。這對整個產業的透明文化是個壞訊號——做好事的人先被罰。

Anthropic 的反駁也點出制度漏洞：如果「發現一個狹窄越獄」就足以召回一個服務數億人的模型，那套標準套到任何一家前沿業者身上，新模型全都別想上線了。監管的判準若不講比例原則，最終會逼大家少說、少揭露、少配合。

這件事值得台灣的 AI 團隊記在心裡：透明與合規本該被獎勵，但在缺乏清楚規則的環境裡，過度誠實有時會先付出代價。怎麼在「負責任揭露」與「自我保護」之間抓平衡，會是接下來每家模型公司的必修課。

歸剛點評｜這是制度設計問題：若監管只看「有沒有漏洞」而不看「比例與情境」，最透明的公司會最先受傷，整個產業的誠實揭露文化會被反向激勵掉。安全派的挫敗，可能讓所有人都變得更不愛說真話。

歸剛誒AI