歸剛誒AI

歸剛欸,AI 又進步了——每天幫你盯 AI 圈的台灣人日報

← 回首頁 · 回第 14 期(2026-06-23)
研究・2026-06-23

擴散語言模型雙論文同日上架:並行感知、會「反覆修稿」的新生成路線

Hugging Face 同一天冒出兩篇都在押注「擴散語言模型」(diffusion language model)的論文,方向各異卻指向同一件事:主流的自迴歸(一個字接一個字往下生)生成方式,正被另一條路線挑戰。PerceptionDLM 用多模態擴散模型做「並行區域感知」,針對需要一次看懂畫面多個區域的視覺任務,效率比一字一字吐的自迴歸更高;另一篇則讓遮罩擴散模型透過多輪反思式遮罩,做出更接近人類「寫完再回頭改」的推理。

差別在哪?自迴歸模型像是一筆寫到底、寫錯也只能將錯就錯往下接;擴散模型則更像先鋪一張草稿、再整體反覆修,哪裡不對就局部改哪裡。對需要全局一致、或只要局部微調的任務,擴散路線天生更順手——感知任務可以並行處理多個區域不必排隊,推理任務則能真正「反悔」前面的輸出而不必整段重生。兩篇論文一篇打感知效率、一篇打推理品質,等於從兩側替擴散路線補強。

對關注 AI 技術走向的台灣讀者,這條線值得長期擱在雷達上。過去兩年大家熟悉的 ChatGPT、Claude 都是自迴歸派,但擴散模型在圖像生成早已是主流,如今正一步步往語言與多模態推。它不會一夜取代現有架構,卻可能在特定場景——高效感知、需要反覆修稿的長推理——先撕開缺口。技術路線越多元,往往才是下一輪效能躍進的伏筆。

歸剛點評|自迴歸不是語言模型唯一的解;擴散路線在效率與「可反悔的推理」上展現潛力,兩篇論文同日上架顯示這條線正在加速。對追技術趨勢的人,這是值得提早關注的架構之爭。

同期其他文章