論文:coding agent 的獎勵沒有銀彈
一
篇
H
u
g
g
i
n
g
F
a
c
e
上
的
論
文
挑
戰
了
一
個
寫
進
教
科
書
的
直
覺
:
驗
證
一
個
解
答
,
應
該
比
生
出
這
個
解
答
容
易
。
作
者
指
出
,
對
今
天
的
c
o
d
i
n
g
a
g
e
n
t
來
說
,
這
個
直
覺
正
在
被
反
轉
。
當
基
礎
模
型
本
身
已
經
很
強
,
要
可
靠
地
判
斷
它
寫
出
來
的
程
式
對
不
對
,
反
而
變
成
一
件
不
見
得
比
較
簡
單
的
事
,
這
就
是
他
們
所
謂
的
「
驗
證
地
平
線
」
。
問
題
的
根
源
在
於
強
化
學
習
需
要
一
個
可
靠
的
獎
勵
訊
號
。
訓
練
c
o
d
i
n
g
a
g
e
n
t
時
,
理
想
做
法
是
讓
它
寫
程
式
、
再
用
某
種
驗
證
機
制
打
分
數
、
據
此
調
整
;
但
如
果
驗
證
本
身
就
會
出
錯
—
—
測
試
覆
蓋
不
全
、
邊
界
情
況
沒
測
到
、
甚
至
兩
個
A
I
互
相
背
書
—
—
那
獎
勵
訊
號
就
是
髒
的
,
訓
練
出
來
的
模
型
也
會
學
歪
。
論
文
的
標
題
已
經
把
結
論
講
白
:
沒
有
銀
彈
。
這
對
正
在
追
逐
自
動
化
軟
體
工
程
的
整
個
方
向
,
是
一
盆
有
用
的
冷
水
。
市
場
上
不
少
敘
事
假
設
只
要
模
型
夠
強
、
再
配
上
自
動
驗
證
就
能
無
限
自
我
改
進
;
這
篇
論
文
提
醒
,
驗
證
這
一
環
會
隨
能
力
提
升
而
變
難
,
不
會
自
動
跟
上
。
想
靠
R
L
把
c
o
d
i
n
g
a
g
e
n
t
推
上
去
的
團
隊
,
得
先
正
視
獎
勵
怎
麼
給
這
個
老
問
題
。
歸剛點評|這篇戳破一個美好假設:以為模型越強、自動驗證就越好做,自我進化就能無限跑。實際上驗證會越來越難,獎勵訊號一髒,模型就學歪。對所有想做 AI 寫程式的團隊,這是必須先解的卡點。
來源:Hugging Face