AgentOdyssey:開放式長程文字遊戲,給 AI 練「持續學習」
一
篇
論
文
提
出
A
g
e
n
t
O
d
y
s
s
e
y
,
把
「
文
字
遊
戲
」
當
成
訓
練
與
考
驗
A
I
代
理
的
試
煉
場
。
它
的
設
計
是
開
放
式
、
長
程
(
l
o
n
g
-
h
o
r
i
z
o
n
)
的
文
字
遊
戲
生
成
—
—
也
就
是
自
動
產
出
一
連
串
沒
有
固
定
終
點
、
需
要
長
時
間
連
續
決
策
的
文
字
冒
險
,
讓
A
I
代
理
在
裡
頭
一
路
闖
關
。
重
點
放
在
「
測
試
時
持
續
學
習
」
(
t
e
s
t
-
t
i
m
e
c
o
n
t
i
n
u
a
l
l
e
a
r
n
i
n
g
)
:
一
般
模
型
訓
練
完
就
定
型
,
面
對
沒
見
過
的
新
狀
況
只
能
硬
套
舊
知
識
;
A
g
e
n
t
O
d
y
s
s
e
y
想
逼
代
理
在
實
際
遊
玩
、
面
對
沒
玩
過
的
關
卡
時
,
邊
玩
邊
調
整
、
持
續
累
積
適
應
力
,
而
不
是
一
招
用
到
底
。
用
文
字
遊
戲
當
載
體
有
它
的
巧
妙
—
—
文
字
遊
戲
規
則
彈
性
、
狀
態
複
雜
、
又
不
需
要
昂
貴
的
實
體
或
視
覺
模
擬
,
是
測
試
代
理
長
程
規
劃
與
適
應
能
力
相
對
省
成
本
的
沙
盒
。
把
這
條
跟
I
m
p
o
r
t
A
I
那
則
「
自
我
改
進
的
機
器
人
」
並
讀
,
會
發
現
「
讓
A
I
在
過
程
中
自
己
變
強
」
正
成
為
跨
研
究
線
的
共
同
關
鍵
字
—
—
不
論
是
實
體
機
器
人
還
是
文
字
代
理
,
大
家
都
在
攻
同
一
道
題
:
怎
麼
讓
模
型
不
要
學
完
就
定
格
。
論
文
成
色
仍
待
社
群
驗
證
,
方
向
值
得
追
。
歸剛點評|模型最大的死穴之一,是訓練完就定型,遇到沒見過的狀況只能硬套舊招。AgentOdyssey 用便宜又複雜的文字遊戲當沙盒,逼代理邊玩邊學——這跟今天機器人那邊「自我改進」是同一道題的兩種解法。誰先讓 AI 學完還能持續變強,誰就跨過了通用智能很實在的一關。