論文:電腦操作 agent 的瓶頸在 GUI 還是 CLI
電
腦
操
作
a
g
e
n
t
可
以
用
兩
種
方
式
完
成
軟
體
任
務
:
點
圖
形
介
面
(
G
U
I
)
,
或
是
下
指
令
列
命
令
(
C
L
I
)
。
一
篇
H
u
g
g
i
n
g
F
a
c
e
論
文
指
出
,
過
去
的
評
測
常
把
這
兩
條
路
徑
混
為
一
談
,
導
致
看
不
清
楚
a
g
e
n
t
真
正
卡
在
哪
裡
。
作
者
把
互
動
方
式
與
執
行
瓶
頸
拆
開
來
分
析
,
想
釐
清
螢
幕
操
作
與
指
令
操
作
各
自
的
長
短
。
會
有
這
個
區
分
的
必
要
,
是
因
為
兩
種
介
面
的
代
價
完
全
不
同
。
G
U
I
要
a
g
e
n
t
一
格
一
格
看
畫
面
、
找
按
鈕
、
模
擬
點
擊
,
每
一
步
都
有
辨
識
與
定
位
的
風
險
;
C
L
I
則
是
直
接
送
出
文
字
命
令
,
少
了
視
覺
辨
識
的
不
確
定
,
但
要
求
a
g
e
n
t
懂
得
對
的
指
令
語
法
。
把
成
績
混
在
一
起
算
,
等
於
分
不
清
失
敗
是
因
為
看
不
懂
畫
面
、
還
是
不
會
下
命
令
。
這
對
正
在
做
c
o
m
p
u
t
e
r
-
u
s
e
a
g
e
n
t
的
人
是
務
實
的
提
醒
。
要
改
進
一
個
a
g
e
n
t
,
得
先
知
道
它
的
瓶
頸
是
視
覺
操
作
還
是
命
令
執
行
;
評
測
設
計
如
果
把
兩
者
攪
在
一
起
,
優
化
方
向
就
會
抓
錯
。
論
文
把
這
層
混
淆
挑
明
,
等
於
替
後
續
的
b
e
n
c
h
m
a
r
k
與
產
品
設
計
立
了
一
個
更
乾
淨
的
座
標
,
也
讓
不
同
團
隊
的
成
績
有
機
會
放
在
同
一
把
尺
上
比
較
。
歸剛點評|做電腦操作 agent 的人常忽略這件事:到底是看不懂畫面,還是不會下指令,得分開算。混在一起測,你連自己該優化哪裡都搞不清楚。這篇把座標立乾淨了,算是基本功的提醒。
來源:Hugging Face