研究・2026-06-11

論文精選：Next Forcing 讓世界模型一次看多步，訓練推理都提速

自迴歸影片生成是世界行動模型（World Action Models）的主流路線，但有兩個老毛病：訓練收斂慢、收斂後精度有限（高幀率下尤其明顯），因為訓練監督只盯著當前的影格塊，模型拿不到關於未來動態的明確訊號；推理時還得一輪輪迭代去噪，慢上加慢。

Next Forcing 的解法是讓模型一次預測多個未來區塊（multi-chunk prediction），把「接下來會發生什麼」的訊號直接灌進訓練目標。模型被迫在每一步就對未來的動態有承諾，學到的因果結構更紮實，訓練收斂與推理速度同時受益。方向上跟語言模型的多 token 預測（multi-token prediction）異曲同工，影片版的難處在於每個區塊承載的資訊量大得多。

放在本週的脈絡裡讀：昨天 Decart 才把世界模型的連續模擬時長拉到數小時，今天 Next Forcing 攻的是同一條賽道的訓練效率。世界模型是機器人與自駕的訓練資料印鈔機，這台印鈔機本身的製造成本，正在被一篇篇論文往下砍。對照各家機器人與自駕公司搶著發布世界模型的近況，效率類改進會被工業界用最快的速度消化掉，從論文到生產線的時差在這條賽道上特別短。

歸剛點評｜影片世界模型的瓶頸從「能不能生成」轉到「生成得多快多便宜」。效率類論文不性感，但決定誰能把世界模型真正跑進生產線。

來源：HF Daily Papers

歸剛誒AI

論文精選：Next Forcing 讓世界模型一次看多步，訓練推理都提速

同期其他文章