歸剛誒AI

歸剛欸，AI 又進步了——每天幫你盯 AI 圈的台灣人日報

← 回首頁　·　回第 18 期（2026-06-27）

研究・2026-06-27

論文：多步工具強化學習為何崩潰、如何救

論文：多步工具強化學習為何崩潰、如何救

工

具

使

用

讓

大

型

語

言

模

型

能

完

成

複

雜

任

務

，

近

期

的

a

g

e

n

t

i

c

強

化

學

習

也

展

現

了

把

模

型

能

力

往

上

推

的

潛

力

，

但

一

篇

H

u

g

g

i

n

g

F

a

c

e

論

文

點

出

其

中

一

個

棘

手

現

象

：

在

多

步

工

具

使

用

的

訓

練

裡

，

強

化

學

習

常

常

會

崩

潰

。

模

型

一

開

始

學

得

不

錯

，

到

了

某

個

階

段

卻

整

個

垮

掉

，

表

現

急

轉

直

下

，

這

讓

不

少

a

g

e

n

t

訓

練

流

程

卡

在

半

路

。

作

者

把

崩

潰

的

成

因

拆

開

分

析

，

並

提

出

用

監

督

訊

號

來

穩

住

訓

練

的

解

法

。

多

步

任

務

的

難

處

在

於

獎

勵

稀

疏

又

延

遲

—

—

模

型

要

連

續

呼

叫

好

幾

次

工

具

才

知

道

最

後

對

不

對

，

中

間

每

一

步

都

可

能

出

錯

卻

拿

不

到

即

時

回

饋

。

純

靠

強

化

學

習

在

這

種

環

境

裡

很

容

易

發

散

；

補

上

適

當

的

監

督

訊

號

，

等

於

在

過

程

中

給

模

型

多

打

幾

盞

路

燈

，

讓

它

不

至

於

走

著

走

著

就

失

控

。

這

篇

研

究

的

價

值

在

於

它

把

一

個

工

程

上

常

見

、

卻

少

被

系

統

性

討

論

的

失

敗

模

式

攤

開

來

談

。

當

業

界

都

在

追

a

g

e

n

t

、

追

多

步

自

主

，

訓

練

不

穩

就

是

擋

在

量

產

前

的

真

實

障

礙

。

提

出

可

操

作

的

修

正

方

法

，

比

起

再

發

一

個

更

高

的

b

e

n

c

h

m

a

r

k

分

數

，

對

實

際

在

訓

a

g

e

n

t

的

團

隊

更

有

用

。

歸剛點評｜做 agent 的人多半都撞過這個牆：訓練前段好好的，後面突然崩。這篇把原因講清楚還給了解法，比刷榜實在多了。多步工具任務的獎勵又稀又慢，能穩住訓練的方法現在就是稀缺品。

來源：Hugging Face

同期其他文章

OpenAI 預覽 GPT-5.6 三模型：Sol、Terra、Luna 白宮要求 OpenAI 緩發 GPT-5.6，只給少數夥伴 OpenAI 公開反對：政府審查不該成常態 Anthropic 的 Mythos 下線兩週，僵局未解評論：已經不是 Anthropic 對 OpenAI 之爭 OpenAI 自研 Jalapeño 晶片，向 Nvidia 鬆綁 OpenAI 挖角 Uber 印度負責人，主攻美國外最大市場 NYT 加碼指控：微軟為 OpenAI 蓋侵權超級電腦