FP4 訓練的隱形殺手:研究揪出「收縮偏差」,提出均勻 4-bit 方案 UFP4
FP4(4 位元浮點)訓練被寄予厚望,因為它能大幅降低大型語言模型預訓練的記憶體與運算成本。但目前的 FP4 硬體路徑與配方——包括 NVIDIA 的 Blackwell/Rubin 級系統與 AMD 的 MI350 系列 GPU——都圍繞著一種叫 E2M1 的資料格式打轉。這篇論文指出了這個選擇的一個根本缺陷。
問題出在「收縮偏差」。研究團隊發現,E2M1 這類非均勻格式,因為可表示區間的幾何不對稱,天生會帶來系統性的負向捨入誤差。更麻煩的是,這個偏差會跨層相乘式地累積,並被常用的隨機哈達瑪變換(RHT)放大——這一口氣解釋了既有 E2M1 配方為什麼訓練老是不穩。過去常被歸咎於玄學的不穩定,其實有個可指認的幾何根源。
對策是回到均勻格網。論文證明,E1M2/INT4 這類均勻格式能繞過這種格網幾何誤差,並把 RHT 帶來的更佳區間利用率,更好地轉化成更高的量化品質。基於此,他們提出了均勻 4-bit 訓練方案 UFP4,在多種大型語言模型架構上都勝過 E2M1 方法。這類底層工作不像新模型發布那樣搶眼,卻直接關係到未來訓練一個大模型要燒多少卡、多少電——省下的每一分成本,最後都會回到所有使用者的帳單上。
歸剛點評|訓練成本是 AI 規模化的硬天花板,FP4 能不能穩定訓練直接決定下一代模型的造價。這類找出根因、提出更省方案的底層研究,受惠的是整個產業的電費與算力帳。
來源:HF Papers