研究・2026-06-21

FP4 訓練的隱形殺手：研究揪出「收縮偏差」，提出均勻 4-bit 方案 UFP4

FP4（4 位元浮點）訓練被寄予厚望，因為它能大幅降低大型語言模型預訓練的記憶體與運算成本。但目前的 FP4 硬體路徑與配方——包括 NVIDIA 的 Blackwell／Rubin 級系統與 AMD 的 MI350 系列 GPU——都圍繞著一種叫 E2M1 的資料格式打轉。這篇論文指出了這個選擇的一個根本缺陷。

問題出在「收縮偏差」。研究團隊發現，E2M1 這類非均勻格式，因為可表示區間的幾何不對稱，天生會帶來系統性的負向捨入誤差。更麻煩的是，這個偏差會跨層相乘式地累積，並被常用的隨機哈達瑪變換（RHT）放大——這一口氣解釋了既有 E2M1 配方為什麼訓練老是不穩。過去常被歸咎於玄學的不穩定，其實有個可指認的幾何根源。

對策是回到均勻格網。論文證明，E1M2／INT4 這類均勻格式能繞過這種格網幾何誤差，並把 RHT 帶來的更佳區間利用率，更好地轉化成更高的量化品質。基於此，他們提出了均勻 4-bit 訓練方案 UFP4，在多種大型語言模型架構上都勝過 E2M1 方法。這類底層工作不像新模型發布那樣搶眼，卻直接關係到未來訓練一個大模型要燒多少卡、多少電——省下的每一分成本，最後都會回到所有使用者的帳單上。

歸剛點評｜訓練成本是 AI 規模化的硬天花板，FP4 能不能穩定訓練直接決定下一代模型的造價。這類找出根因、提出更省方案的底層研究，受惠的是整個產業的電費與算力帳。

來源：HF Papers

歸剛誒AI

FP4 訓練的隱形殺手：研究揪出「收縮偏差」，提出均勻 4-bit 方案 UFP4

同期其他文章