研究・2026-07-05

英國 AISI：token 給太少，你會系統性低估前緣 agent 的能力

英國 AI 安全研究院（UK AISI）的一篇分析本週在研究圈被大量轉發，核心發現用一組數字就能講完：評測時若只給前緣 agent 250 萬 token 的預算，估出來的「可自主完成任務時長」約兩小時；把預算放大到 5,000 萬 token，同樣的模型能撐起約十四小時的任務時程。七倍的差距，來源只是測試時給的算力額度。

轉發背書的名單相當有份量：OpenAI 的 Noam Brown、METR 相關研究者 David Rein、牛津的 Toby Ord 等人都強調同一個重點——token 預算不足會系統性低估前緣 agent 的真實能力。含意往兩個方向延伸：能力評估上，各家排行榜與時程估計若沒有標明運算預算，數字之間根本沒有可比性；安全評估上，用低預算測出「模型做不到」就放行，可能放走的是給足算力後做得到的危險能力。

測試時運算（test-time compute)作為新的規模化維度，地位又被抬高一級。METR 式的「任務時長翻倍週期」研究已是業界追蹤能力進展的主要儀表板，若量測本身對算力預算如此敏感，過去的曲線可能整體被低估。給評測圈的功課很具體：往後所有 agent 能力報告，token 預算應該像實驗室儀器的量程一樣，印在結果旁邊。

歸剛點評｜量尺本身失準，比讀數難看更危險——尤其安全評估若用低預算得出「做不到」的結論，等於用短尺量長蛇。看任何 agent 能力數字前，先找 token 預算這個小字，沒寫的一律打折看待。

來源：smol.ai AINews　·　UK AISI

歸剛誒AI

英國 AISI：token 給太少，你會系統性低估前緣 agent 的能力

同期其他文章