英國 AISI:token 給太少,你會系統性低估前緣 agent 的能力
英國 AI 安全研究院(UK AISI)的一篇分析本週在研究圈被大量轉發,核心發現用一組數字就能講完:評測時若只給前緣 agent 250 萬 token 的預算,估出來的「可自主完成任務時長」約兩小時;把預算放大到 5,000 萬 token,同樣的模型能撐起約十四小時的任務時程。七倍的差距,來源只是測試時給的算力額度。
轉發背書的名單相當有份量:OpenAI 的 Noam Brown、METR 相關研究者 David Rein、牛津的 Toby Ord 等人都強調同一個重點——token 預算不足會系統性低估前緣 agent 的真實能力。含意往兩個方向延伸:能力評估上,各家排行榜與時程估計若沒有標明運算預算,數字之間根本沒有可比性;安全評估上,用低預算測出「模型做不到」就放行,可能放走的是給足算力後做得到的危險能力。
測試時運算(test-time compute)作為新的規模化維度,地位又被抬高一級。METR 式的「任務時長翻倍週期」研究已是業界追蹤能力進展的主要儀表板,若量測本身對算力預算如此敏感,過去的曲線可能整體被低估。給評測圈的功課很具體:往後所有 agent 能力報告,token 預算應該像實驗室儀器的量程一樣,印在結果旁邊。
歸剛點評|量尺本身失準,比讀數難看更危險——尤其安全評估若用低預算得出「做不到」的結論,等於用短尺量長蛇。看任何 agent 能力數字前,先找 token 預算這個小字,沒寫的一律打折看待。
來源:smol.ai AINews · UK AISI