TRIAGE:替 agent 的每個動作『按角色分功過』,改進代理式強化學習
讓
A
I
a
g
e
n
t
靠
強
化
學
習
變
強
,
有
個
很
實
際
的
難
題
:
一
條
任
務
軌
跡
裡
有
搜
尋
、
點
擊
、
編
輯
、
導
航
、
跟
物
件
互
動
等
一
大
堆
面
向
環
境
的
動
作
,
最
後
成
功
或
失
敗
的
功
過
,
到
底
該
算
在
哪
個
動
作
頭
上
?
標
準
的
G
R
P
O
做
法
是
拿
最
終
驗
證
結
果
,
對
所
有
動
作
t
o
k
e
n
給
一
個
一
致
的
優
勢
值
—
—
不
管
你
這
步
是
關
鍵
決
策
還
是
無
關
緊
要
的
中
間
操
作
,
通
通
吃
同
一
份
獎
懲
。
這
個
訊
號
有
用
,
但
太
粗
。
T
R
I
A
G
E
這
篇
論
文
提
出
更
細
緻
的
做
法
:
依
動
作
的
『
角
色
』
分
型
來
分
配
信
用
。
不
同
種
類
的
動
作
在
任
務
裡
扮
演
的
份
量
本
來
就
不
同
,
把
它
們
一
視
同
仁
地
灌
同
一
個
優
勢
值
,
會
讓
學
習
訊
號
變
糊
、
效
率
變
差
。
按
角
色
區
分
後
,
關
鍵
動
作
能
拿
到
更
貼
切
的
獎
勵
、
雜
訊
動
作
不
被
過
度
強
化
,
a
g
e
n
t
學
起
來
就
更
有
方
向
感
。
說
白
了
,
就
是
把
『
整
組
一
起
賞
罰
』
改
成
『
看
你
在
這
局
扮
什
麼
角
色
、
各
自
論
功
行
賞
』
。
這
類
研
究
是
a
g
e
n
t
能
力
持
續
變
強
的
底
層
引
擎
。
今
天
這
一
版
日
報
裡
好
幾
篇
都
在
談
a
g
e
n
t
—
—
程
序
記
憶
、
技
能
演
化
、
多
輪
協
作
,
而
T
R
I
A
G
E
補
的
是
最
底
層
的
訓
練
訊
號
怎
麼
給
得
更
準
。
對
一
般
使
用
者
,
這
些
細
節
看
起
來
很
遠
,
但
它
們
決
定
了
你
明
年
用
到
的
A
I
a
g
e
n
t
會
不
會
更
少
犯
蠢
、
更
懂
得
哪
一
步
重
要
。
當
各
家
都
在
拚
a
g
e
n
t
誰
更
能
自
己
動
手
辦
事
,
能
不
能
把
『
功
過
算
得
準
』
這
件
苦
工
做
好
,
往
往
就
是
拉
開
差
距
的
地
方
。
歸剛點評|agent 要更會辦事,底層得先把『哪一步該記功、哪一步該記過』算準。TRIAGE 把 GRPO 那種整組一致的粗獎勵,改成按動作角色論功行賞。這類訓練訊號的細活,決定了明年你用到的 AI agent 會不會更少犯蠢——是拉開各家差距的關鍵苦工。