AFTER 基準:用 382 個真實企業任務,測 AI agent 的『程序記憶』到底行不行
程
序
記
憶
(
p
r
o
c
e
d
u
r
a
l
m
e
m
o
r
y
)
正
被
愈
來
愈
多
地
用
來
提
升
L
L
M
a
g
e
n
t
在
重
複
性
職
場
任
務
上
的
表
現
,
但
它
到
底
能
不
能
產
出
真
正
可
重
複
利
用
的
技
能
,
其
實
一
直
沒
被
講
清
楚
。
一
篇
新
論
文
提
出
名
為
A
F
T
E
R
的
基
準
來
正
面
回
答
這
件
事
:
它
包
含
3
8
2
個
貼
近
真
實
的
企
業
任
務
,
橫
跨
六
種
專
業
職
業
角
色
與
2
2
種
程
序
技
能
,
專
門
設
計
來
評
估
a
g
e
n
t
能
不
能
把
做
過
的
事
沉
澱
成
下
次
能
用
的
步
驟
。
程
序
記
憶
的
想
法
很
直
覺
—
—
人
做
過
一
次
報
帳
、
跑
過
一
次
某
個
流
程
,
下
次
就
會
了
;
a
g
e
n
t
若
也
能
把
成
功
經
驗
記
成
一
套
可
調
用
的
程
序
,
就
不
必
每
次
從
零
摸
索
。
但
魔
鬼
在
細
節
:
這
些
記
下
來
的
技
能
該
怎
麼
控
制
何
時
該
用
、
環
境
變
了
要
怎
麼
調
適
、
又
該
用
什
麼
標
準
評
它
好
不
好
。
A
F
T
E
R
的
價
值
就
在
於
把
這
三
個
問
題
(
控
制
、
調
適
、
評
估
)
放
進
一
個
有
具
體
任
務
、
有
職
業
情
境
的
框
架
裡
量
化
,
而
不
是
停
在
概
念
討
論
。
對
實
際
在
做
a
g
e
n
t
工
作
流
的
人
,
這
篇
很
接
地
氣
。
今
天
M
a
x
的
五
機
工
作
流
跟
一
堆
排
程
,
本
質
上
就
是
在
讓
A
I
把
重
複
的
苦
力
活
變
成
固
定
程
序
反
覆
執
行
;
程
序
記
憶
研
究
要
解
的
正
是
同
一
件
事
—
—
怎
麼
讓
a
g
e
n
t
記
住
『
這
類
任
務
上
次
是
這
樣
搞
定
的
』
並
穩
定
重
現
,
而
不
是
每
次
都
要
人
重
新
交
代
。
這
類
基
準
能
幫
我
們
判
斷
,
把
哪
些
重
複
任
務
交
給
有
記
憶
的
a
g
e
n
t
是
可
靠
的
、
哪
些
還
是
得
人
盯
著
,
對
設
計
省
人
力
又
不
出
包
的
自
動
化
流
程
很
有
參
考
價
值
。
歸剛點評|程序記憶研究要解的,正是 Max 五機工作流天天在做的事:讓 AI 把重複苦力沉澱成能穩定重現的固定程序。AFTER 用 382 個真實企業任務量化『控制、調適、評估』三難題,能幫判斷哪些重複任務交給有記憶的 agent 靠得住、哪些還得人盯。