研究・2026-07-02

TRIAGE：替 agent 的每個動作『按角色分功過』，改進代理式強化學習

讓

靠

強

化

學

習

變

強

，

有

個

很

實

際

的

難

題

：

一

條

任

務

軌

跡

裡

有

搜

尋

、

點

擊

、

編

輯

、

導

航

、

跟

物

件

互

動

等

一

大

堆

面

向

環

境

的

動

作

，

最

後

成

功

或

失

敗

的

功

過

，

到

底

該

算

在

哪

個

動

作

頭

上

？

標

準

的

做

法

是

拿

最

終

驗

證

結

果

，

對

所

有

動

作

給

一

個

一

致

的

優

勢

值

—

不

管

你

這

步

是

關

鍵

決

策

還

是

無

關

緊

要

的

中

間

操

作

，

通

吃

同

一

份

獎

懲

。

這

個

訊

號

有

用

，

但

太

粗

。

這

篇

論

文

提

出

更

細

緻

的

做

法

：

依

動

作

的

『

角

色

』

分

型

來

分

配

信

用

。

不

同

種

類

的

動

作

在

任

務

裡

扮

演

的

份

量

本

來

就

不

同

，

把

它

們

一

視

同

仁

地

灌

同

一

個

優

勢

值

，

會

讓

學

習

訊

號

變

糊

、

效

率

變

差

。

按

角

色

區

分

後

，

關

鍵

動

作

能

拿

到

更

貼

切

的

獎

勵

、

雜

訊

動

作

不

被

過

度

強

化

，

學

起

來

就

更

有

方

向

感

。

說

白

了

，

就

是

把

『

整

組

一

起

賞

罰

』

改

成

『

看

你

在

這

局

扮

什

麼

角

色

、

各

自

論

功

行

賞

』

。

這

類

研

究

是

能

力

持

續

變

強

的

底

層

引

擎

。

今

天

這

一

版

日

報

裡

好

幾

篇

都

在

談

—

程

序

記

憶

、

技

能

演

化

、

多

輪

協

作

，

而

補

的

是

最

底

層

的

訓

練

訊

號

怎

麼

給

得

更

準

。

對

一

般

使

用

者

，

這

些

細

節

看

起

來

很

遠

，

但

它

們

決

定

了

你

明

年

用

到

的

會

不

會

更

少

犯

蠢

、

更

懂

得

哪

一

步

重

要

。

當

各

家

都

在

拚

誰

更

能

自

己

動

手

辦

事

，

能

不

能

把

『

功

過

算

得

準

』

這

件

苦

工

做

好

，

往

就

是

拉

開

差

距

的

地

方

。

歸剛點評｜agent 要更會辦事，底層得先把『哪一步該記功、哪一步該記過』算準。TRIAGE 把 GRPO 那種整組一致的粗獎勵，改成按動作角色論功行賞。這類訓練訊號的細活，決定了明年你用到的 AI agent 會不會更少犯蠢——是拉開各家差距的關鍵苦工。

來源：Hugging Face Papers

歸剛誒AI

TRIAGE：替 agent 的每個動作『按角色分功過』，改進代理式強化學習

同期其他文章