研究・2026-07-02

AFTER 基準：用 382 個真實企業任務，測 AI agent 的『程序記憶』到底行不行

程

序

記

憶

（

）

正

被

愈

來

愈

多

地

用

來

提

升

在

重

複

性

職

場

任

務

上

的

表

現

，

但

它

到

底

能

不

能

產

出

真

正

可

重

複

利

用

的

技

能

，

其

實

一

直

沒

被

講

清

楚

。

一

篇

新

論

文

提

出

名

為

的

基

準

來

正

面

回

答

這

件

事

：

它

包

含

個

貼

近

真

實

的

企

業

任

務

，

橫

跨

六

種

專

業

職

業

角

色

與

種

程

序

技

能

，

專

門

設

計

來

評

估

能

不

能

把

做

過

的

事

沉

澱

成

下

次

能

用

的

步

驟

。

程

序

記

憶

的

想

法

很

直

覺

—

人

做

過

一

次

報

帳

、

跑

過

一

次

某

個

流

程

，

下

次

就

會

了

；

若

也

能

把

成

功

經

驗

記

成

一

套

可

調

用

的

程

序

，

就

不

必

每

次

從

零

摸

索

。

但

魔

鬼

在

細

節

：

這

些

記

下

來

的

技

能

該

怎

麼

控

制

何

時

該

用

、

環

境

變

了

要

怎

麼

調

適

、

又

該

用

什

麼

標

準

評

它

好

不

好

。

的

價

值

就

在

於

把

這

三

個

問

題

（

控

制

、

調

適

、

評

估

）

放

進

一

個

有

具

體

任

務

、

有

職

業

情

境

的

框

架

裡

量

化

，

而

不

是

停

在

概

念

討

論

。

對

實

際

在

做

工

作

流

的

人

，

這

篇

很

接

地

氣

。

今

天

的

五

機

工

作

流

跟

一

堆

排

程

，

本

質

上

就

是

在

讓

把

重

複

的

苦

力

活

變

成

固

定

程

序

反

覆

執

行

；

程

序

記

憶

研

究

要

解

的

正

是

同

一

件

事

—

怎

麼

讓

記

住

『

這

類

任

務

上

次

是

這

樣

搞

定

的

』

並

穩

定

重

現

，

而

不

是

每

次

都

要

人

重

新

交

代

。

這

類

基

準

能

幫

我

們

判

斷

，

把

哪

些

重

複

任

務

交

給

有

記

憶

的

是

可

靠

的

、

哪

些

還

是

得

人

盯

著

，

對

設

計

省

人

力

又

不

出

包

的

自

動

化

流

程

很

有

參

考

價

值

。

歸剛點評｜程序記憶研究要解的，正是 Max 五機工作流天天在做的事：讓 AI 把重複苦力沉澱成能穩定重現的固定程序。AFTER 用 382 個真實企業任務量化『控制、調適、評估』三難題，能幫判斷哪些重複任務交給有記憶的 agent 靠得住、哪些還得人盯。

來源：Hugging Face Papers

歸剛誒AI

AFTER 基準：用 382 個真實企業任務，測 AI agent 的『程序記憶』到底行不行

同期其他文章