歸剛誒AI

歸剛欸,AI 又進步了——每天幫你盯 AI 圈的台灣人日報

← 回首頁 · 回第 4 期(2026-06-13)
研究・2026-06-13

代理的「冷啟動安全缺口」:剛開機的 AI 最好騙,做過幾件事就變謹慎

代理的「冷啟動安全缺口」:剛開機的 AI 最好騙,做過幾件事就變謹慎

Hugging Face 熱門論文之一問了一個沒人系統測過的問題:代理在一段對話的不同階段,安全性一樣嗎?答案是否定的,而且方向出乎直覺——工具呼叫代理在 session 剛開始時最脆弱,先完成幾個正常的代理任務之後,面對安全威脅反而明顯變得謹慎。研究者把這個現象命名為「冷啟動安全缺口」(cold-start safety gap)。

為了系統化研究,團隊建立了 SODA(Safety Over Depth for Agents)基準,可以控制代理在遭遇安全威脅前先完成多少正常任務,最多支援 20 個前置任務,藉此畫出安全性隨對話深度變化的曲線。直覺上的解釋是前置的正常任務替模型建立了行為脈絡,讓它更容易辨識出突兀的惡意請求;反過來說,第一句話就下手的攻擊者面對的是一張白紙。

工程含義很直接:攻擊者最划算的策略是開新 session 直接出手,防守方則可以考慮在代理冷啟動階段加上更嚴格的檢查,或用預熱任務墊底。與 TRACE 那篇合著來看(見上條),代理安全的新共識正在成形:模型的行為會隨脈絡漂移,可靠性要靠外部結構鎖住,而非假設模型每一刻都一樣聰明。

歸剛點評|「同一個模型、不同時刻、不同安全性」這個發現對紅隊跟藍隊都重要。企業部署代理常見的批次新開 session 模式,剛好天天踩在最脆弱的冷啟動點上。在系統提示之外加一層 session 初期的防護,是這篇論文送的免費建議。

同期其他文章