HF 論文:post-training 早就藏著免費的 agent 獎勵訊號
H
u
g
g
i
n
g
F
a
c
e
每
日
論
文
選
了
一
篇
談
A
I
a
g
e
n
t
訓
練
的
研
究
,
標
題
點
名
一
個
被
忽
略
的
「
免
費
午
餐
」
。
背
景
是
這
樣
:
過
程
獎
勵
模
型
(
p
r
o
c
e
s
s
r
e
w
a
r
d
m
o
d
e
l
)
能
對
L
L
M
的
每
一
步
動
作
打
分
,
做
到
步
驟
層
級
的
細
緻
評
估
,
對
需
要
長
串
操
作
的
a
g
e
n
t
特
別
有
用
。
問
題
在
於
,
a
g
e
n
t
的
場
景
又
長
又
難
—
—
一
連
串
互
動
、
有
些
動
作
做
了
無
法
回
頭
、
環
境
回
饋
還
帶
隨
機
性
,
靠
人
工
標
註
或
蒙
地
卡
羅
估
計
來
建
這
種
獎
勵
模
型
,
成
本
高
到
幾
乎
不
可
行
。
這
篇
論
文
的
主
張
是
,
強
化
學
習
的
p
o
s
t
-
t
r
a
i
n
i
n
g
過
程
其
實
已
經
悄
悄
產
出
了
建
構
這
類
獎
勵
訊
號
需
要
的
材
料
,
等
於
現
成
的
東
西
被
擱
在
一
旁
沒
人
撿
。
研
究
團
隊
提
出
「
進
度
優
勢
」
的
概
念
,
把
訓
練
裡
本
來
就
有
的
訊
號
重
新
利
用
,
讓
步
驟
級
的
評
估
不
必
再
額
外
砸
大
錢
標
資
料
。
對
想
把
模
型
訓
練
成
可
靠
a
g
e
n
t
的
團
隊
來
說
,
能
少
花
一
筆
標
註
成
本
、
又
拿
到
細
緻
的
過
程
回
饋
,
是
很
實
際
的
好
處
,
也
讓
打
造
長
流
程
a
g
e
n
t
的
門
檻
往
下
降
了
一
截
。
對
沒
有
大
筆
預
算
去
買
人
工
標
註
的
小
團
隊
來
說
,
先
把
訓
練
裡
已
經
有
的
訊
號
榨
乾
,
是
比
急
著
加
資
料
更
划
算
的
一
步
。
歸剛點評|做可靠的 agent 卡在獎勵訊號太貴。這篇說訓練過程裡早就有現成材料,撿起來用就能省下大筆標註錢——對小團隊尤其關鍵。
來源:Hugging Face