研究・2026-07-02

SWE-Interact：把寫程式 benchmark 改成『使用者一路來回下指令』的多輪任務

現

在

主

流

的

評

測

，

大

多

長

這

樣

：

一

開

始

就

把

完

整

需

求

全

丟

給

，

然

後

看

它

能

不

能

自

己

一

路

寫

完

。

但

真

實

世

界

的

軟

體

開

發

根

本

不

是

這

樣

—

需

求

是

邊

做

邊

講

清

楚

的

，

人

會

中

途

改

主

意

、

補

條

件

、

看

到

結

果

再

調

方

向

。

這

篇

論

文

就

是

要

補

上

這

個

落

差

，

把

放

進

『

多

輪

、

互

動

、

使

用

者

驅

動

』

的

情

境

裡

評

估

，

讓

使

用

者

重

新

回

到

開

發

迴

圈

當

中

。

轉

變

雖

然

聽

來

不

大

，

意

義

卻

不

小

。

一

個

能

不

能

在

拿

到

完

整

規

格

後

自

主

把

題

目

解

掉

，

跟

它

能

不

能

在

一

場

你

來

我

往

、

需

求

逐

步

浮

現

的

協

作

裡

穩

住

陣

腳

，

是

兩

種

很

不

一

樣

的

能

力

。

後

者

更

接

近

工

程

師

每

天

用

助

手

寫

程

式

的

真

實

體

感

：

你

先

講

個

大

概

，

看

它

寫

出

什

麼

，

再

指

出

哪

裡

不

對

、

要

改

哪

裡

。

把

評

測

拉

到

這

個

更

貼

近

現

場

的

維

度

，

量

的

是

在

模

糊

、

變

動

、

多

回

合

下

的

實

戰

力

。

對

每

天

用

寫

程

式

的

人

（

包

括

這

種

靠

建

站

、

跑

排

程

、

修

腳

本

的

）

，

這

篇

很

有

共

鳴

。

你

會

發

現

真

正

決

定

生

產

力

的

，

不

是

一

次

能

不

能

通

關

某

個

乾

淨

的

題

目

，

而

是

它

能

不

能

聽

懂

你

半

路

改

的

需

求

、

記

住

前

面

講

過

的

脈

絡

、

不

要

每

次

都

要

你

重

講

一

遍

。

評

測

終

於

開

始

測

『

協

作

』

而

不

只

是

『

自

動

完

成

』

，

這

對

挑

選

順

手

的

工

具

，

是

更

貼

近

日

常

的

參

考

。

歸剛點評｜真實開發是邊做邊講清楚需求，不是一次把規格丟給 AI 讓它自己跑完。SWE-Interact 把評測拉到『多輪協作』這個更貼近日常的維度。對每天靠 AI 寫程式、修腳本的人，選工具該看的是它聽不聽得懂你半路改的需求，而不只是能不能通關乾淨題目。

來源：Hugging Face Papers

歸剛誒AI

SWE-Interact：把寫程式 benchmark 改成『使用者一路來回下指令』的多輪任務

同期其他文章