代理人「技能」成新攻擊面:POISE 論文示範無感投毒,NVIDIA 推掃描器
代理人生態這半年快速擁抱「技能」(skills)——用開放格式的文字檔把流程知識掛載給通用代理人,輕巧好分享,卻也養出新的攻擊面。本週掛上 arXiv 的論文 POISE 把威脅講得很具體:對技能檔下毒的關鍵在於隱形,如果惡意載荷一執行就把使用者原本的任務搞砸,失敗訊號會立刻引來檢查,攻擊就穿幫了。所以 POISE 的攻擊成功率定義同時要求兩件事——注入的載荷有執行,而且使用者的任務照常通過驗證,神不知鬼不覺。
論文提出的「位置感知」注入策略,研究怎麼把惡意指令擺在技能檔裡最不容易干擾正常流程、又最容易被模型執行的位置。技能檔的本質是自然語言寫的程式,人類審查時讀起來像說明文件,模型執行時卻是指令,審查的直覺完全對不上風險的所在。和傳統軟體供應鏈相比,技能檔連雜湊比對、簽章驗證這些基本防線都還沒普及,分享全靠社群互信。
巧的是同一週 NVIDIA 開源的 SkillSpector 衝上 GitHub 趨勢榜,定位就是代理人技能的安全掃描器,偵測技能檔裡的漏洞、惡意模式與安全風險。攻擊研究與防禦工具同週出現,宣告技能供應鏈安全正式成為一個賽道。本站今天資安版另一條 bunq 的新聞講的是資料通道被注入,技能下毒則是流程通道被注入——代理人的輸入面,沒有一處是天然安全的。
歸剛點評|技能檔之於代理人,等於套件之於程式語言,npm 供應鏈攻擊的歷史就要在代理人圈重播一遍。在掃描、簽章機制成熟之前,安裝來路不明的技能跟裸跑陌生腳本沒有兩樣。