研究・2026-06-13

代理的「冷啟動安全缺口」：剛開機的 AI 最好騙，做過幾件事就變謹慎

Hugging Face 熱門論文之一問了一個沒人系統測過的問題：代理在一段對話的不同階段，安全性一樣嗎？答案是否定的，而且方向出乎直覺——工具呼叫代理在 session 剛開始時最脆弱，先完成幾個正常的代理任務之後，面對安全威脅反而明顯變得謹慎。研究者把這個現象命名為「冷啟動安全缺口」（cold-start safety gap）。

為了系統化研究，團隊建立了 SODA（Safety Over Depth for Agents）基準，可以控制代理在遭遇安全威脅前先完成多少正常任務，最多支援 20 個前置任務，藉此畫出安全性隨對話深度變化的曲線。直覺上的解釋是前置的正常任務替模型建立了行為脈絡，讓它更容易辨識出突兀的惡意請求；反過來說，第一句話就下手的攻擊者面對的是一張白紙。

工程含義很直接：攻擊者最划算的策略是開新 session 直接出手，防守方則可以考慮在代理冷啟動階段加上更嚴格的檢查，或用預熱任務墊底。與 TRACE 那篇合著來看（見上條），代理安全的新共識正在成形：模型的行為會隨脈絡漂移，可靠性要靠外部結構鎖住，而非假設模型每一刻都一樣聰明。

歸剛點評｜「同一個模型、不同時刻、不同安全性」這個發現對紅隊跟藍隊都重要。企業部署代理常見的批次新開 session 模式，剛好天天踩在最脆弱的冷啟動點上。在系統提示之外加一層 session 初期的防護，是這篇論文送的免費建議。

來源：Hugging Face Papers

歸剛誒AI

代理的「冷啟動安全缺口」：剛開機的 AI 最好騙，做過幾件事就變謹慎

同期其他文章