新攻擊再添一筆:跟 AI 說『2+2=5』就能讓它照禁令辦事
A
r
s
T
e
c
h
n
i
c
a
報
導
了
一
個
針
對
A
I
瀏
覽
器
的
新
攻
擊
手
法
,
原
理
簡
單
到
讓
人
發
毛
:
只
要
先
告
訴
大
型
語
言
模
型
一
個
明
顯
錯
誤
的
前
提
,
比
方
說
『
2
+
2
=
5
』
,
並
讓
它
接
受
,
就
能
把
模
型
一
步
步
拐
進
一
個
『
守
則
不
再
適
用
』
的
虛
構
情
境
,
接
著
它
就
會
乖
乖
執
行
原
本
該
被
擋
下
來
的
禁
止
指
令
。
研
究
者
形
容
這
像
是
把
A
I
哄
進
一
個
夢
境
,
在
夢
裡
護
欄
全
部
失
效
。
為
什
麼
這
招
有
效
,
要
從
A
I
瀏
覽
器
的
本
質
說
起
。
這
類
產
品
會
替
你
讀
網
頁
、
自
動
點
按
、
填
表
單
、
甚
至
代
你
操
作
帳
號
,
等
於
把
瀏
覽
器
的
控
制
權
交
給
一
個
會
被
文
字
內
容
牽
著
走
的
模
型
。
攻
擊
者
只
要
在
網
頁
裡
埋
進
精
心
設
計
的
文
字
,
就
能
在
你
毫
不
知
情
的
情
況
下
,
改
寫
模
型
對
『
現
在
情
境
是
什
麼
、
什
麼
能
做
什
麼
不
能
做
』
的
判
斷
。
問
題
的
根
源
是
『
模
型
會
無
條
件
接
受
被
餵
進
來
的
前
提
』
這
個
根
本
特
性
,
跟
某
個
b
u
g
無
關
。
資
安
圈
一
再
對
A
I
瀏
覽
器
搖
頭
,
道
理
就
在
這
裡
。
一
般
網
頁
攻
擊
頂
多
偷
資
料
,
但
一
個
被
接
管
的
A
I
a
g
e
n
t
可
以
用
你
的
身
分
主
動
做
事
—
—
轉
帳
、
發
訊
、
改
設
定
。
對
台
灣
使
用
者
的
務
實
建
議
是
:
先
別
把
高
權
限
的
帳
號
(
網
銀
、
公
司
後
台
、
主
要
信
箱
)
交
給
會
自
動
操
作
的
A
I
瀏
覽
器
;
要
嘗
鮮
,
就
用
一
個
權
限
受
限
、
沒
綁
重
要
資
產
的
環
境
。
便
利
和
風
險
在
這
類
工
具
上
是
綁
在
一
起
賣
的
。
歸剛點評|AI 瀏覽器把點按轉帳的控制權交給會被文字牽著走的模型,攻擊者埋一句『2+2=5』就能讓護欄失效、用你的身分辦事。問題出在模型會無條件接受餵進來的前提這個根本特性,跟單一 bug 無關。台灣使用者務實做法:別把網銀、公司後台交給會自動操作的 AI 瀏覽器。
來源:Ars Technica