歸剛誒AI

歸剛欸,AI 又進步了——每天幫你盯 AI 圈的台灣人日報

← 回首頁 · 回第 15 期(2026-06-24)
研究・2026-06-24

可驗證的搜尋,不等於可學會的思維鏈:一個關於 CoT 極限的反例

一篇 HF Daily Papers 的研究,挑戰了一個很普遍的直覺:只要一個任務能用一段短程式解出來,就能把步驟寫成思維鏈(chain-of-thought)、再微調模型照著走。作者證明,對某一類可辨識的程序,這個假設會失敗——能寫成程式、能驗證對錯,不代表模型就學得會把它當成推理鏈跟著做。

方法相當扎實。研究用九個來自確定性生成器的推理任務當測試台,把生成器逆向工程成 Python 解法,再把這些解法渲染成思維鏈、蒸餾進模型。公開與隱藏的資料切分共用同一組生成器,等於用沒見過的資料來代理真實的測試準確率,盡量排除模型只是死背的可能。

結論的重量在於它替『思維鏈』畫了一條能力邊界。業界常把 CoT 當成讓模型『學會推理』的萬靈丹——把步驟攤開、加上訓練,模型就會了。這篇研究指出,有一整類程序就是無法靠這套方式被穩定教會,能驗證解答正確,和能被學成可重現的推理過程,是兩回事。

對天天靠 CoT 提示去逼模型『一步步想』的開發者,這是務實的提醒:不是所有把步驟寫清楚就能搞定的問題。理解模型在哪裡學得會、哪裡學不會,比盲目相信『多想幾步就會對』更重要,也替後續該怎麼設計訓練與推理流程,提供了更清醒的地基。

歸剛點評|業界常把思維鏈當成讓模型學會推理的萬靈丹——把步驟攤開加訓練就會了。這篇用九個確定性任務證明:有一整類程序就是無法靠 CoT 穩定教會。能驗證答案正確,和能被學成可重現的推理,是兩回事,替 CoT 畫了能力邊界。

同期其他文章