研究突破・2026-06-26

反直覺研究：給模型「想一想」的思考 token，未必讓它更安全

現在的推理模型靠「思考 token」在跑分上贏過一般指令模型，業界普遍相信，這種讓模型先想一想再回答的模式，順帶也能改善對齊與安全——等於給模型一個安靜的空間，先盤算自己的答案會不會違反安全原則。一篇新論文對這個直覺潑了冷水。

研究團隊在多個前沿開源權重推理模型上做測試，涵蓋 GPT-OSS、Qwen、Olmo、Phi 等系列。結果發現，多想幾步並不總是換來更安全的行為；在某些情況下，那段思考過程甚至沒能擋住模型給出有問題的回應。

這個發現之所以重要，是因為它戳破一個方便的假設。如果「讓模型多想」就能自動變安全，安全工程會輕鬆很多；但研究顯示，思考過程與安全表現之間，並沒有那麼乾淨的因果。安全得靠專門的訓練與測試去顧，不能寄望推理能力順手帶過。

對導入模型的團隊，務實的啟示是：別把「這是推理模型、會深思熟慮」當成安全保證。模型會不會在你的場景裡說出不該說的話，仍要靠針對性的測試、紅隊演練與防護機制來驗，不能因為它標榜會思考就鬆手。

歸剛點評｜「讓模型多想就會更安全」是個方便但未必成立的假設。安全得靠專門訓練與測試去顧，別把模型標榜的「會思考」當成可以鬆手的保證。

歸剛誒AI