從中間層的「熵」看穿越獄:模型內部其實早就露了餡
越獄攻擊一直是對齊模型的老問題:精心設計的提示,能誘使本來受過安全訓練的模型,吐出違反政策的內容。多數防禦做在提示端或輸出端,但有害意圖到底是怎麼被編碼進模型內部,一直是個黑盒子。一篇新論文試著把這個盒子打開。
研究者用一種叫 logit lens 的工具,去分析一個凍結模型在各層之間、對 token 的預測「熵」如何變化。熵可以粗略理解成模型在每一步有多「猶豫」。他們發現,靜態的整體統計量看不出名堂,但逐層追蹤這條熵的軌跡,就能讀到藏在中間層的線索。
這個角度的價值,在於它把偵測點從模型的「嘴巴」移到「腦中」。如果有害意圖在中間層就留下了可辨識的痕跡,防禦就有機會在模型把壞話說出口之前先攔下來,而不是等輸出了再事後過濾。對抓越獄這件事,這是更早、更內部的一道關卡。
對在意 AI 安全的人,這類研究的方向比單一數字更值得記:模型的內部表徵,正逐漸從不可解釋的黑盒,變成可以拿來監控與防禦的訊號源。雖然離實用的線上防護還有距離,但「往模型內部看」會是接下來安全工具的一條重要路線。
歸剛點評|把越獄偵測從模型的「嘴巴」移到「腦中」,是更早、更內部的一道關卡。模型內部表徵正從黑盒變成可監控的訊號源,這是接下來安全工具的重要方向。