研究突破・2026-06-26

從中間層的「熵」看穿越獄：模型內部其實早就露了餡

越獄攻擊一直是對齊模型的老問題：精心設計的提示，能誘使本來受過安全訓練的模型，吐出違反政策的內容。多數防禦做在提示端或輸出端，但有害意圖到底是怎麼被編碼進模型內部，一直是個黑盒子。一篇新論文試著把這個盒子打開。

研究者用一種叫 logit lens 的工具，去分析一個凍結模型在各層之間、對 token 的預測「熵」如何變化。熵可以粗略理解成模型在每一步有多「猶豫」。他們發現，靜態的整體統計量看不出名堂，但逐層追蹤這條熵的軌跡，就能讀到藏在中間層的線索。

這個角度的價值，在於它把偵測點從模型的「嘴巴」移到「腦中」。如果有害意圖在中間層就留下了可辨識的痕跡，防禦就有機會在模型把壞話說出口之前先攔下來，而不是等輸出了再事後過濾。對抓越獄這件事，這是更早、更內部的一道關卡。

對在意 AI 安全的人，這類研究的方向比單一數字更值得記：模型的內部表徵，正逐漸從不可解釋的黑盒，變成可以拿來監控與防禦的訊號源。雖然離實用的線上防護還有距離，但「往模型內部看」會是接下來安全工具的一條重要路線。

歸剛點評｜把越獄偵測從模型的「嘴巴」移到「腦中」，是更早、更內部的一道關卡。模型內部表徵正從黑盒變成可監控的訊號源，這是接下來安全工具的重要方向。

歸剛誒AI