歸剛誒AI

歸剛欸,AI 又進步了——每天幫你盯 AI 圈的台灣人日報

← 回首頁 · 回第 17 期(2026-06-26)
研究突破・2026-06-26

反直覺研究:給模型「想一想」的思考 token,未必讓它更安全

反直覺研究:給模型「想一想」的思考 token,未必讓它更安全

現在的推理模型靠「思考 token」在跑分上贏過一般指令模型,業界普遍相信,這種讓模型先想一想再回答的模式,順帶也能改善對齊與安全——等於給模型一個安靜的空間,先盤算自己的答案會不會違反安全原則。一篇新論文對這個直覺潑了冷水。

研究團隊在多個前沿開源權重推理模型上做測試,涵蓋 GPT-OSS、Qwen、Olmo、Phi 等系列。結果發現,多想幾步並不總是換來更安全的行為;在某些情況下,那段思考過程甚至沒能擋住模型給出有問題的回應。

這個發現之所以重要,是因為它戳破一個方便的假設。如果「讓模型多想」就能自動變安全,安全工程會輕鬆很多;但研究顯示,思考過程與安全表現之間,並沒有那麼乾淨的因果。安全得靠專門的訓練與測試去顧,不能寄望推理能力順手帶過。

對導入模型的團隊,務實的啟示是:別把「這是推理模型、會深思熟慮」當成安全保證。模型會不會在你的場景裡說出不該說的話,仍要靠針對性的測試、紅隊演練與防護機制來驗,不能因為它標榜會思考就鬆手。

歸剛點評|「讓模型多想就會更安全」是個方便但未必成立的假設。安全得靠專門訓練與測試去顧,別把模型標榜的「會思考」當成可以鬆手的保證。

同期其他文章