研究・2026-06-23

擴散語言模型雙論文同日上架：並行感知、會「反覆修稿」的新生成路線

Hugging Face 同一天冒出兩篇都在押注「擴散語言模型」（diffusion language model）的論文，方向各異卻指向同一件事：主流的自迴歸（一個字接一個字往下生）生成方式，正被另一條路線挑戰。PerceptionDLM 用多模態擴散模型做「並行區域感知」，針對需要一次看懂畫面多個區域的視覺任務，效率比一字一字吐的自迴歸更高；另一篇則讓遮罩擴散模型透過多輪反思式遮罩，做出更接近人類「寫完再回頭改」的推理。

差別在哪？自迴歸模型像是一筆寫到底、寫錯也只能將錯就錯往下接；擴散模型則更像先鋪一張草稿、再整體反覆修，哪裡不對就局部改哪裡。對需要全局一致、或只要局部微調的任務，擴散路線天生更順手——感知任務可以並行處理多個區域不必排隊，推理任務則能真正「反悔」前面的輸出而不必整段重生。兩篇論文一篇打感知效率、一篇打推理品質，等於從兩側替擴散路線補強。

對關注 AI 技術走向的台灣讀者，這條線值得長期擱在雷達上。過去兩年大家熟悉的 ChatGPT、Claude 都是自迴歸派，但擴散模型在圖像生成早已是主流，如今正一步步往語言與多模態推。它不會一夜取代現有架構，卻可能在特定場景——高效感知、需要反覆修稿的長推理——先撕開缺口。技術路線越多元，往往才是下一輪效能躍進的伏筆。

歸剛點評｜自迴歸不是語言模型唯一的解；擴散路線在效率與「可反悔的推理」上展現潛力，兩篇論文同日上架顯示這條線正在加速。對追技術趨勢的人，這是值得提早關注的架構之爭。

來源：PerceptionDLM　·　Reflective Masking Diffusion

歸剛誒AI

擴散語言模型雙論文同日上架：並行感知、會「反覆修稿」的新生成路線

同期其他文章