SWE-Interact:把寫程式 benchmark 改成『使用者一路來回下指令』的多輪任務
現
在
主
流
的
c
o
d
i
n
g
a
g
e
n
t
評
測
,
大
多
長
這
樣
:
一
開
始
就
把
完
整
需
求
全
丟
給
a
g
e
n
t
,
然
後
看
它
能
不
能
自
己
一
路
寫
完
。
但
真
實
世
界
的
軟
體
開
發
根
本
不
是
這
樣
—
—
需
求
是
邊
做
邊
講
清
楚
的
,
人
會
中
途
改
主
意
、
補
條
件
、
看
到
結
果
再
調
方
向
。
S
W
E
-
I
n
t
e
r
a
c
t
這
篇
論
文
就
是
要
補
上
這
個
落
差
,
把
c
o
d
i
n
g
a
g
e
n
t
放
進
『
多
輪
、
互
動
、
使
用
者
驅
動
』
的
情
境
裡
評
估
,
讓
使
用
者
重
新
回
到
開
發
迴
圈
當
中
。
轉
變
雖
然
聽
來
不
大
,
意
義
卻
不
小
。
一
個
a
g
e
n
t
能
不
能
在
拿
到
完
整
規
格
後
自
主
把
題
目
解
掉
,
跟
它
能
不
能
在
一
場
你
來
我
往
、
需
求
逐
步
浮
現
的
協
作
裡
穩
住
陣
腳
,
是
兩
種
很
不
一
樣
的
能
力
。
後
者
更
接
近
工
程
師
每
天
用
A
I
助
手
寫
程
式
的
真
實
體
感
:
你
先
講
個
大
概
,
看
它
寫
出
什
麼
,
再
指
出
哪
裡
不
對
、
要
改
哪
裡
。
S
W
E
-
I
n
t
e
r
a
c
t
把
評
測
拉
到
這
個
更
貼
近
現
場
的
維
度
,
量
的
是
a
g
e
n
t
在
模
糊
、
變
動
、
多
回
合
下
的
實
戰
力
。
對
每
天
用
A
I
寫
程
式
的
人
(
包
括
M
a
x
這
種
靠
A
I
建
站
、
跑
排
程
、
修
腳
本
的
)
,
這
篇
很
有
共
鳴
。
你
會
發
現
真
正
決
定
生
產
力
的
,
不
是
a
g
e
n
t
一
次
能
不
能
通
關
某
個
乾
淨
的
題
目
,
而
是
它
能
不
能
聽
懂
你
半
路
改
的
需
求
、
記
住
前
面
講
過
的
脈
絡
、
不
要
每
次
都
要
你
重
講
一
遍
。
評
測
終
於
開
始
測
『
協
作
』
而
不
只
是
『
自
動
完
成
』
,
這
對
挑
選
順
手
的
c
o
d
i
n
g
工
具
,
是
更
貼
近
日
常
的
參
考
。
歸剛點評|真實開發是邊做邊講清楚需求,不是一次把規格丟給 AI 讓它自己跑完。SWE-Interact 把評測拉到『多輪協作』這個更貼近日常的維度。對每天靠 AI 寫程式、修腳本的人,選工具該看的是它聽不聽得懂你半路改的需求,而不只是能不能通關乾淨題目。