論文:多步工具強化學習為何崩潰、如何救
工
具
使
用
讓
大
型
語
言
模
型
能
完
成
複
雜
任
務
,
近
期
的
a
g
e
n
t
i
c
強
化
學
習
也
展
現
了
把
模
型
能
力
往
上
推
的
潛
力
,
但
一
篇
H
u
g
g
i
n
g
F
a
c
e
論
文
點
出
其
中
一
個
棘
手
現
象
:
在
多
步
工
具
使
用
的
訓
練
裡
,
強
化
學
習
常
常
會
崩
潰
。
模
型
一
開
始
學
得
不
錯
,
到
了
某
個
階
段
卻
整
個
垮
掉
,
表
現
急
轉
直
下
,
這
讓
不
少
a
g
e
n
t
訓
練
流
程
卡
在
半
路
。
作
者
把
崩
潰
的
成
因
拆
開
分
析
,
並
提
出
用
監
督
訊
號
來
穩
住
訓
練
的
解
法
。
多
步
任
務
的
難
處
在
於
獎
勵
稀
疏
又
延
遲
—
—
模
型
要
連
續
呼
叫
好
幾
次
工
具
才
知
道
最
後
對
不
對
,
中
間
每
一
步
都
可
能
出
錯
卻
拿
不
到
即
時
回
饋
。
純
靠
強
化
學
習
在
這
種
環
境
裡
很
容
易
發
散
;
補
上
適
當
的
監
督
訊
號
,
等
於
在
過
程
中
給
模
型
多
打
幾
盞
路
燈
,
讓
它
不
至
於
走
著
走
著
就
失
控
。
這
篇
研
究
的
價
值
在
於
它
把
一
個
工
程
上
常
見
、
卻
少
被
系
統
性
討
論
的
失
敗
模
式
攤
開
來
談
。
當
業
界
都
在
追
a
g
e
n
t
、
追
多
步
自
主
,
訓
練
不
穩
就
是
擋
在
量
產
前
的
真
實
障
礙
。
提
出
可
操
作
的
修
正
方
法
,
比
起
再
發
一
個
更
高
的
b
e
n
c
h
m
a
r
k
分
數
,
對
實
際
在
訓
a
g
e
n
t
的
團
隊
更
有
用
。
歸剛點評|做 agent 的人多半都撞過這個牆:訓練前段好好的,後面突然崩。這篇把原因講清楚還給了解法,比刷榜實在多了。多步工具任務的獎勵又稀又慢,能穩住訓練的方法現在就是稀缺品。
來源:Hugging Face