研究・2026-06-30

AgentOdyssey：開放式長程文字遊戲，給 AI 練「持續學習」

一

篇

論

文

提

出

，

把

「

文

字

遊

戲

」

當

成

訓

練

與

考

驗

代

理

的

試

煉

場

。

它

的

設

計

是

開

放

式

、

長

程

（

）

的

文

字

遊

戲

生

成

—

也

就

是

自

動

產

出

一

連

串

沒

有

固

定

終

點

、

需

要

長

時

間

連

續

決

策

的

文

字

冒

險

，

讓

代

理

在

裡

頭

一

路

闖

關

。

重

點

放

在

「

測

試

時

持

續

學

習

」

（

）

：

一

般

模

型

訓

練

完

就

定

型

，

面

對

沒

見

過

的

新

狀

況

只

能

硬

套

舊

知

識

；

想

逼

代

理

在

實

際

遊

玩

、

面

對

沒

玩

過

的

關

卡

時

，

邊

玩

邊

調

整

、

持

續

累

積

適

應

力

，

而

不

是

一

招

用

到

底

。

用

文

字

遊

戲

當

載

體

有

它

的

巧

妙

—

文

字

遊

戲

規

則

彈

性

、

狀

態

複

雜

、

又

不

需

要

昂

貴

的

實

體

或

視

覺

模

擬

，

是

測

試

代

理

長

程

規

劃

與

適

應

能

力

相

對

省

成

本

的

沙

盒

。

把

這

條

跟

那

則

「

自

我

改

進

的

機

器

人

」

並

讀

，

會

發

現

「

讓

在

過

程

中

自

己

變

強

」

正

成

為

跨

研

究

線

的

共

同

關

鍵

字

—

不

論

是

實

體

機

器

人

還

是

文

字

代

理

，

大

家

都

在

攻

同

一

道

題

：

怎

麼

讓

模

型

不

要

學

完

就

定

格

。

論

文

成

色

仍

待

社

群

驗

證

，

方

向

值

得

追

。

歸剛點評｜模型最大的死穴之一，是訓練完就定型，遇到沒見過的狀況只能硬套舊招。AgentOdyssey 用便宜又複雜的文字遊戲當沙盒，逼代理邊玩邊學——這跟今天機器人那邊「自我改進」是同一道題的兩種解法。誰先讓 AI 學完還能持續變強，誰就跨過了通用智能很實在的一關。

來源：Hugging Face Papers

歸剛誒AI

AgentOdyssey：開放式長程文字遊戲，給 AI 練「持續學習」

同期其他文章