歸剛誒AI 第12期｜2026-06-21：諾貝爾得主、AlphaFold 之父 John Jumper 離開 DeepMind 投奔 Anthropic

第 12 期2026-06-21（台北時間）

第十二期，今天 AI 的戲碼集中在『人、機器人、與規模的極限』。兩位明星研究者同週出走、現代把波士頓動力全收進口袋、開源模型逼到閉源巨獸的鼻尖；同時監管、晶片、隱私三條暗線，繼續在底下拉扯。

人才大搬風：諾貝爾得主、AlphaFold 之父 John Jumper 離開 DeepMind 投奔 Anthropic，Transformer 作者 Noam Shazeer 同週轉投 OpenAI。對照第十一期 Anthropic 才被政府逼撤模型，這場競爭比的是長線科學底氣，不是單一產品上市。
機器人整併：現代汽車以 3.25 億美元買回軟銀股份，全資掌控波士頓動力。時點正逢 Atlas 進入商業部署、人形賽道對上特斯拉 Optimus 與 Figure，車廠開始把機器人當製造核心。
規模觸頂辯論：開源 GLM-5.2 用約三分之二體積逼近 GPT-5.5 僅差四分、幻覺更低，配上 Ian Barber 的架構分化回顧，指向同一結論——智慧已近平台期，進步藏在工程細節裡，而非堆參數。
監管與地緣：從 PGP 到 Mythos 的出口管制史，警示硬擋技術擴散往往擋不住；美方指 ASML 頂級 EUV 曝光機可能流入中國、ASML 否認；挪威則近乎全面禁止小學使用 AI，逆勢而行。
隱私與訓練資料：Signal 總裁 Whittaker 提醒別把聊天機器人當朋友、別交出信用卡；The Atlantic 音樂訓練資料庫與 In the Weights 一起把『被餵進模型、被模型記住的我們』攤開檢視。

頭條

諾貝爾得主、AlphaFold 之父 John Jumper 離開 DeepMind 投奔 Anthropic

John Jumper 在週五於 X 上發文，宣布結束在 Google DeepMind 將近九年的任職，下一站是競爭對手 Anthropic。他在 2024 年與 DeepMind 執行長 Demis Hassabis 共同拿下諾貝爾化學獎，得獎的正是能預測蛋白質三維結構的 AlphaFold。Jumper 在文中感謝 Hassabis 在他博士畢業才半年就放手讓他領導 AlphaFold 團隊，也說 DeepMind 是個特別的地方，他仍會期待這支團隊接下來的發現。

同一週離開 DeepMind 的不只他一人。Character AI 共同創辦人、Transformer 論文作者之一 Noam Shazeer 也宣布出走，落腳處則是 OpenAI。據彭博報導，Jumper 近期是 Google 開發程式工具團隊的關鍵成員，而那套工具 Google 一直難以賣進企業客戶。兩位明星研究者在數天內分別投向 Anthropic 與 OpenAI，把幾家前沿實驗室之間的人才爭奪戰，直接擺到了檯面上。

對 Anthropic 來說，能把一位諾貝爾級的科學家收進門，是科學招牌上的一筆重彩；但時機格外微妙。本站第十一期才報過，美國政府上週以國安為由逼 Anthropic 撤下 Fable 5 與 Mythos 5 兩款模型，公司正處在監管風暴裡。一邊被政府按下暫停鍵、一邊把頂尖人才搬進來，說明這場競爭比的是長線的科學底氣，不是單一產品的上市節奏。對 DeepMind 而言，同週連失兩員大將，內部留才的壓力只會更重。

歸剛點評｜前沿實驗室的競爭正從「誰的模型分數高」轉向「誰留得住人」。頂尖研究者的流向，往往比任何 benchmark 更早預告下一個世代的模型會從哪裡長出來。

來源：TechCrunch　·　John Jumper on X

產業

現代汽車 3.25 億美元買下軟銀手中股份，全資掌控波士頓動力

現代汽車集團以 3.25 億美元收購軟銀持有的波士頓動力 9.65% 股份，完成對這家機器人公司的完全控股，時間點正逢 Atlas 人形機器人進入商業部署、人形賽道全面升溫。

現代汽車集團宣布以 3.25 億美元，買回軟銀手上剩餘的 9.65% 波士頓動力股份，完成對這家老牌機器人公司的全資控股。波士頓動力幾經易手——從 Google 到軟銀、再到現代——這一次現代把最後一塊拼圖收齊，等於把這家以四足機器狗 Spot 與人形機器人 Atlas 聞名的公司，徹底納入自家版圖。軟銀則在此刻選擇全身而退。

交易完成的時間點很關鍵。波士頓動力的 Atlas 人形機器人正進入商業部署階段，而整個人形機器人賽道同時在加速：特斯拉的 Optimus、新創 Figure 都在搶同一塊市場。對現代來說，握有完整控制權，意味著可以把機器人技術更直接地接進自家的汽車製造與工廠自動化，不必再跟外部股東協調步調。

軟銀的退場也值得玩味。這家以重押科技聞名的投資集團近年資金重心明顯轉向 AI 與晶片，把硬體機器人股份套現，像是把籌碼挪到牌桌的另一邊。人形機器人從實驗室走向產線的這幾年，誰持有、誰退出，正在重新畫出這個領域的權力地圖。對下游想導入自動化的製造業者而言，背後金主換人，往往牽動技術路線與供貨的穩定。

歸剛點評｜人形機器人正從展示影片走向真實產線，控股權的整併決定了技術能多快落地。現代全資掌控，代表車廠開始把機器人當成製造核心，而非外部投資標的。

來源：Startup Fortune

開源

開源 GLM-5.2 逼近 GPT-5.5 僅差四分，引爆「模型規模是否已到頂」辯論

Z.ai 的 MIT 授權開源模型 GLM-5.2（753B 參數、約 40B 活躍）在智慧指標上與 GPT-5.5 僅差四分、距 Fable 5 九分，且被指幻覺率遠低於 GPT-5.5，重新點燃「堆參數是否已邊際遞減」的討論。

一篇被 Hacker News 推上高位的分析指出，Z.ai 最新的開源模型 GLM-5.2 擁有 753B 參數、約 40B 活躍參數，在 Artificial Analysis 智慧指標上只落後 GPT-5.5 四分、落後 Anthropic Fable 5 九分。對照之下，GPT-5.5 與 Opus 4.8 這類閉源模型，外界保守估計參數量在一到兩兆之譜。一個體積可能只有對手一半到三分之二、而且採 MIT 授權的開源模型，竟能貼得這麼近。

作者的論點是：當開源小模型能逼近閉源大模型，代表「靠堆參數和訓練資料換取智慧」這條路的邊際效益正在明顯遞減，實質智慧水平已經趨於平台期。同一份討論串還引用了另一個數據點——有人測出 GPT-5.5 的幻覺率約是 GLM-5.2 的三倍，暗示更大的模型未必更可靠，反而可能在某些面向退步。

把這件事放回近期脈絡會更清楚。本站報過，美國政府上週才以國安為由限制 Anthropic 的 Fable 5——文章作者也提到，世界上最大的模型之一，因為一次越獄就被認定風險太高而遭限制。當最強的閉源模型隨時可能被政府按停、而開源模型又追得這麼近，企業在選型時的天平，正悄悄往「可自託管、可控」的開源一側傾斜。

歸剛點評｜開源模型用三分之二的體積追到閉源前段班，動搖了「越大越好」的產業共識。對要控成本、怕被斷供的團隊，這是把預算從 API 帳單挪向自架開源的有力理由。

來源：arrowtsx.dev 分析　·　Hacker News 討論

政策

從 PGP 到 Mythos：出口管制擋不住技術擴散的歷史，正在 AI 身上重演

白宮上週以國安為由要求 Anthropic 限制 Fable、Mythos 對美國境外與境內外籍人士的輸出，兩款模型已停擺一週。TechCrunch 回顧加密技術與間諜軟體的出口管制史，質疑這套手段能否真正圍堵前沿 AI。

白宮上週五以未具體說明的國安疑慮，下令 Anthropic 限制其強力模型 Fable 與 Mythos 輸出給美國境外任何人、以及境內的外籍人士。Anthropic 隨即倉促把兩款模型全面下線，到報導當下已停擺整整一週。這是美國政府第一次真正動用出口管制的工具，試圖圍堵前沿 AI——就像過去它曾試圖圍堵加密技術與間諜軟體那樣。

TechCrunch 的這篇回顧把時間拉回 1990 年代的「加密戰爭」。當年美國把強加密視為軍火管制，PGP 作者 Phil Zimmermann 因為把程式碼上網而被調查，最後管制形同失效——因為數學與程式碼一旦寫出來，就攔不住。間諜軟體的出口管制同樣成效參差。文章的核心問題是：模型權重本質上也是一堆數字，真能用一紙命令把它關在國境之內嗎？

這場僵局的影響不只關乎 Anthropic 能不能賣到海外。它正在替整個產業立規矩：如果政府能對一家公司的模型下達輸出禁令，其他實驗室就得提前把法遵與地緣風險寫進產品設計。本站第十一期已報過 Fable 5、Mythos 5 被撤的始末，今天這篇等於補上歷史視角——前例顯示，硬擋技術擴散往往擋不住，卻會先讓守規矩的人付出代價。

歸剛點評｜出口管制若成為 AI 常態，閉源模型的「能不能用」將取決於華盛頓的政治風向，而非技術本身。歷史經驗也提醒：擋不住擴散，卻可能逼著開發者把研究搬離管制範圍。

來源：TechCrunch

產業

美方稱 ASML 頂級曝光機可能流入中國，ASML 斷然否認

彭博報導，美國商務部長 Lutnick 多次向 ASML 高層表達憂慮，懷疑這家荷蘭廠商的極紫外光（EUV）曝光機可能流入中國。官員稱握有證據卻拒絕出示，ASML 則堅稱中國境內從未存在這類機台。

據彭博報導，美國商務部長 Howard Lutnick 近期在多場會議上向 ASML 高層表示，他擔心這家荷蘭半導體設備商的一台極紫外光（EUV）曝光機可能已落腳中國。EUV 是地表唯一能印出最先進半導體圖樣的工具，自第一任川普政府起，ASML 就被禁止把 EUV 賣給中國。若真有機台流入，等於是出口管制的重大破口。

這項指控分量不輕，卻卡在「拿不出證據」。資深官員告訴彭博，他們手上有 ASML 把 EUV 相關零組件與運輸設備運往中國的證據，但反覆拒絕出示——不論對彭博還是對 ASML 本身。ASML 則明白否認，強調中國境內沒有、也從來沒有過這樣的機台。商務部對彭博的查證沒有回應。雙方各執一詞，目前更像一場互信的角力。

把這件事放進大局看，它和今天另一條新聞遙相呼應：當開源模型逼近閉源、AI 軍備競賽白熱化，能造出最先進晶片的設備就成了地緣政治的咽喉。EUV 只有 ASML 做得出來，這讓荷蘭與這家公司被夾在美中之間。無論最後查出什麼，這場風波都會讓 ASML 的每一筆出貨被放在放大鏡下檢視，也讓全球晶片供應鏈的政治風險再升一級。

歸剛點評｜EUV 是先進製程的唯一咽喉，任何流向爭議都會牽動全球晶片版圖。對台廠與整條半導體供應鏈而言，管制收緊與互信破裂，意味著未來採購與擴產要把政治變數算得更重。

來源：TechCrunch

政策

挪威近乎全面禁止小學使用 AI，逆勢替孩子按下暫停鍵

路透報導，挪威對小學階段使用 AI 祭出近乎全面的禁令，在各國爭相把 AI 推進教室的潮流中逆向而行，理由聚焦在低年級學童的基礎學習與思辨能力養成。

路透報導，挪威對小學階段使用 AI 工具下達了近乎全面的禁令。當許多國家正忙著把生成式 AI 塞進課堂、推銷給師生時，挪威選了相反的方向，替最低年齡層的學生踩下煞車。這項決定把焦點拉回一個樸素的問題：在孩子還在打基礎的階段，讓 AI 代勞，究竟是幫忙還是幫倒忙。

支持者的理由不難理解。小學是讀寫、算術與基本思辨成形的關鍵期，如果學童太早習慣讓機器給答案，可能還沒練出自己動腦的肌肉，就先把這件事外包出去。這份顧慮，和今天另一則新聞裡 Signal 總裁 Whittaker 的提醒隱隱呼應——她說，別把聊天機器人當朋友，也別讓它取代你「親自把一個想法想透」的過程。低年級教育，正是那塊最需要親自想透的土壤。

挪威的逆勢而行，提供了一個對照組。多數政府與科技公司預設「AI 進校園是進步」，但把年齡層拆開來看，學齡愈低、爭議愈大。這條禁令未必會被各國照抄，卻可能促使更多教育主管機關停下來，分齡去想「哪個階段該用、哪個階段先別碰」，而不是一股腦地全面導入。對家長與教師來說，這是一個值得參考的政策訊號。

歸剛點評｜在「全面擁抱 AI」的主旋律裡，挪威示範了分齡審慎的另一種選擇。教育現場怎麼用 AI，將直接影響下一代的基礎能力，這類政策值得各國教育決策者參考。

來源：Reuters

社會

Signal 總裁 Whittaker：聊天機器人不是你的朋友，也別交出信用卡

Signal 總裁 Meredith Whittaker 在彭博訪談中直言，ChatGPT、Claude 這類聊天機器人「不是你的朋友、不是有意識的存在」，並對「讓 Copilot 代辦聖誕採購」這類願景背後的隱私代價提出警告。

被問到 ChatGPT、Claude 這類聊天機器人的隱私問題時，Signal 總裁 Meredith Whittaker 回得很直接：「這些不是你的朋友，不是有意識的存在，不是能跟你對話的有情眾生。」她在這場以政策、隱私與 Signal 為主題的彭博訪談中承認自己會用 AI「偶爾排版一下文件」，但強調她不拿問題去問它，因為她很認真看待自己的思考與寫作，不想讓「把一個想法想透」的過程，被一個只會平均網路既有內容的系統打斷或取代。

她也對微軟 AI 執行長 Suleyman 的願景開砲。Suleyman 曾預測，今年使用者可以放手讓 Copilot 包辦整個聖誕採購。Whittaker 反問：要做到這件事，等於讓 Copilot 偷聽家庭群組對話、判斷誰想要什麼，還要交出信用卡權限。把這些便利攤開來算，背後是把家人之間的私密對話與付款能力，一併交給一家科技公司。

Whittaker 的提醒，和今天另外兩條新聞串成了一條線。挪威近乎禁止小學用 AI，怕的是孩子太早把思考外包；Whittaker 怕的，是大人在「方便」的誘惑下，把隱私與判斷一起外包。當產業忙著把 AI 包裝成貼心助理、甚至類人格的陪伴，來自加密通訊圈的這把聲音，提醒大家先看清楚帳單上真正的價格是什麼。

歸剛點評｜當 AI 公司爭相把產品塑造成「懂你的朋友」，隱私的代價容易被話術蓋過。Whittaker 的提醒值得每個把生活愈交愈多給 AI 的使用者放在心上。

來源：TechCrunch

產品

In the Weights：新型「AI 虛榮搜尋」，測你在模型腦中佔不佔位置

由 Thomas Dimson 與 Joey Flynn 打造的 In the Weights，宣稱能在不靠網路搜尋的情況下，測量各家模型「光憑記憶」能不能想起某個人，把 Google 自己的舊習慣搬進了 AI 時代。

還記得以前 Google 自己名字的樂趣嗎？Thomas Dimson 與 Joey Flynn 覺得那種感覺已經變了——如今認識你我的人，可能有不少是從聊天機器人那裡聽說的，而不是從網頁搜尋。於是他們做了 In the Weights，一個宣稱能測量「模型在不使用網路搜尋等工具的情況下，能不能回想起某個人」的網站。所謂 weights，就是塑造模型訓練與輸出的那一堆數字參數。

網站的說法帶點哲學味：「身在權重之中，意味著你的存在被認為重要到，足以被寫進打造超人類人工智慧的過程裡。」運作方式是去查詢不同模型（站方說涵蓋多家），看它們光憑內部記憶能講出關於你的多少東西。換句話說，它把「被 Google 收錄」這件事，升級成了「被模型記住」——一種 AI 時代的虛榮指標。

這個小工具好玩，底下卻藏著嚴肅的問題。當愈來愈多人透過 AI 而非搜尋引擎認識他人，模型「記得誰、記錯誰」就開始影響真實世界的聲譽。它記住的是訓練資料裡的你，可能過時、可能張冠李戴。和今天 The Atlantic 那則音樂訓練資料庫的新聞放在一起看，主題是同一個：我們被餵進模型的那一份自己，到底長什麼樣、又由誰說了算。

歸剛點評｜「被模型記住」正逐漸取代「被搜尋引擎收錄」，成為數位聲譽的新戰場。模型記錯人會直接影響真實聲譽，這類工具讓人第一次能直視自己在 AI 腦中的樣子。

來源：TechCrunch

社會

The Atlantic 做出可搜尋資料庫，揭露哪些音樂被拿去訓練 AI

The Atlantic 建立了一個可搜尋的資料庫，讓人查詢哪些音樂作品被用於訓練 AI，把長期不透明的訓練資料攤在陽光下，延續其先前對 AI 訓練素材的系列調查。

The Atlantic 推出了一個可搜尋的資料庫，讓任何人都能查詢哪些音樂作品被拿去訓練 AI 模型。訓練資料一向是 AI 產業最不透明的環節之一——模型吃了什麼、誰的作品被用、有沒有授權，外界多半看不到。這個資料庫把其中的音樂部分翻了出來，創作者終於能查查自己的作品是否在列。

這並非 The Atlantic 第一次做這種事。先前它就曾建過書籍訓練資料的查詢工具，揭露大量受版權保護的書被納入訓練集，在出版與創作圈引發強烈反彈。這次把範圍延伸到音樂，延續同一條路線：用可查詢的工具，把「我的作品被不被拿去訓練」這個原本黑箱的問題，變成創作者自己就能驗證的事實。

把這件事放回今天的脈絡，它和 In the Weights 講的是一體兩面。一邊是「模型記不記得我這個人」，一邊是「模型有沒有吃掉我的創作」——都指向同一個核心：被餵進 AI 的我們，由誰決定、能不能看見。隨著各國版權訴訟與授權談判持續延燒，這類把訓練資料可視化的工具，正在替創作者爭取一個最基本的起點：先知道自己被用了，才談得上同不同意。

歸剛點評｜訓練資料透明化是 AI 版權爭議的關鍵戰場。當創作者能自己查證作品是否被使用，授權談判與訴訟的天平就會改變，這對所有內容產業都有示範意義。

來源：The Verge

產品

Cloudflare 推「臨時帳號」給 AI 代理，一行指令就能直接部署

Cloudflare 推出給 AI 代理用的臨時帳號，代理可用 wrangler deploy --temporary 在無需先註冊的情況下直接部署 Worker，臨時部署存活 60 分鐘，期間可認領轉為正式帳號。

Cloudflare 宣布推出「給代理用的臨時 Cloudflare 帳號」。他們點出一個現實痛點：現在大家都用 AI 代理寫程式，但代理一旦要部署、需要註冊建帳號，就會一頭撞上專為人類設計的牆——瀏覽器 OAuth 流程、要點來點去的後台、要複製貼上的 API 金鑰、還有多因素驗證。對坐在開發者旁邊的互動式副駕來說只是煩；對在背景自己跑的代理來說，這是直接卡死。

新功能讓代理可以跳過註冊，直接開工。任何代理現在都能執行 wrangler deploy --temporary，把一個 Worker 直接部署上 Cloudflare。這個臨時部署會存活 60 分鐘，在這段時間內你可以「認領」這個臨時帳號，把它永久變成自己的；若不認領，它就會自動到期消失。Cloudflare 把目標講得很白：讓你的代理能寫、能出貨。

這個設計背後的意義比表面大。它呼應了今天 Simon Willison 引述的一個觀點——MCP 真正的價值，或許就是把認證流程從代理的脈絡裡隔離出去。當 AI 代理要成為能獨立完成任務的「員工」，註冊、登入、授權這些為人類設計的關卡，就成了非拆不可的摩擦。Cloudflare 這步等於承認：基礎設施得開始為「非人類使用者」重新設計，而這很可能只是開端。

歸剛點評｜當 AI 代理要真正獨立幹活，為人類設計的註冊登入流程就是最大絆腳石。Cloudflare 替代理拆掉這道牆，預示基礎設施正開始為「機器使用者」重寫規則。

來源：Cloudflare Blog

研究

「LLM 現在很複雜了」：一篇技術回顧，盤點現代模型架構的爆炸式分化

開發者 Ian Barber 撰文指出，2022 至 2023 年那種乾淨、重複堆疊的 Transformer 架構已成過去，現代頂尖模型在注意力、混合專家、多模態與多 GPU 推論上長出大量變體，複雜度大幅攀升。

工程師 Ian Barber 寫了一篇回顧，標題直接點題：LLM 現在很複雜了。他回憶 2022 到 2023 年在 Meta，當時有兩條機器學習路線——催生 Llama 的 LLM 工作是一疊乾淨、重複堆疊的 Transformer 模組，相形之下推薦系統的計算圖則「相當嚇人」。他半開玩笑地說，後來業界很努力地把 LLM 也搞得一樣複雜，總算「補正」了這個落差。

他舉了具體例子：拿 Sebastian Raschka 維護的模型架構圖庫，去比對兩個各自時代的頂尖開源模型 Llama 3 與 Nemotron 3 Ultra，差異一目了然。「注意力就是你需要的一切」也許沒錯，但現代模型用上了一堆注意力變體——查詢分組、壓縮、稀疏、線性、滑動視窗等等。混合專家（MoE）替前饋層加上了選擇性路由，而現在幾乎什麼都在被路由，從注意力區塊到殘差流都是。

複雜度還不只在模型內部。視覺與音訊編碼器從「外掛」變成「內建混合」，模型規模大到要在多張 GPU 上做推論，於是又引進通訊運算、帶來額外的同步開銷。把這篇放進今天的脈絡看別有意味：當 GLM-5.2 這類開源模型用更小體積逼近閉源巨獸，背後靠的正是這些架構巧思，而非單純把參數堆高。智慧的進步，愈來愈藏在工程細節裡。

歸剛點評｜模型進步的重心正從「堆參數」轉向「架構工程」，這解釋了為何更小的開源模型能追上巨型閉源模型。看懂這層分化，才看得懂這一輪 AI 競賽真正在比什麼。

來源：Ian Barber's Blog

研究

臨床版代理式 RAG 上線醫院實測：7,326 次判讀中 96.5% 獲醫師採納

一篇 HF 熱門論文發表 ACIE 系統，在德國埃森大學醫院實地部署代理式 RAG，從橫跨數百份異質文件的完整病患脈絡中抽取醫療資訊，經核醫科醫師逐項驗證，7,326 次判讀的採納率達 96.5%。

一篇登上 Hugging Face 熱門榜的論文，發表了名為 ACIE 的臨床資訊抽取系統，而且不是停在實驗室——它已在德國埃森大學醫院實地部署。病患的脈絡往往橫跨數百份格式各異的文件、數千個結構化資料點，而 AI 拿來檢索與分流所需的「文件層級中介資料」常常缺失或不完整。標準的檢索增強生成（RAG）在這種資料上會失靈，搞錯時間順序、跨文件依賴與缺漏的中介資料。

ACIE 的做法是上一套「代理式」RAG 管線，在院內本地運行，能對完整病患脈絡進行推理，並把每一個答案都錨定回原始段落，方便臨床醫師逐句查驗。研究團隊量化了中介資料的缺口、交代了它如何形塑系統的架構決策，並搭配一項獨立的回溯性淋巴瘤登記研究來評估——由核醫科醫師把每一個被抽取出來的數值，對照其引用來源逐一驗證。

結果是關鍵。在 7,326 次判讀中，臨床醫師接受了其中 96.5% 的抽取結果。這個數字之所以重要，在於它來自真實醫院、真實醫師的逐項把關，而非乾淨測試集上的跑分。它示範了一條讓 AI 進臨床的務實路徑：不求模型自己拍板，而是把每個結論都附上可查證的出處，讓專業人員保有最後的判斷權。對所有想把 AI 導入高風險領域的團隊，「答案可溯源」這一點，比準確率本身更值得抄作業。

歸剛點評｜高風險領域導入 AI 的關鍵不是準確率數字，而是每個結論能不能溯源、讓專家把關。ACIE 在真實醫院拿到 96.5% 採納率，替「人機協作」立了一個可複製的範本。

來源：HF Papers

研究

FP4 訓練的隱形殺手：研究揪出「收縮偏差」，提出均勻 4-bit 方案 UFP4

一篇 HF 論文指出，主流 FP4 訓練採用的 E2M1 格式存在系統性「收縮偏差」，會跨層累積並被隨機哈達瑪變換放大，導致訓練不穩；改用均勻格網（如 INT4）的 UFP4 方案能繞過此問題、提升量化品質。

FP4（4 位元浮點）訓練被寄予厚望，因為它能大幅降低大型語言模型預訓練的記憶體與運算成本。但目前的 FP4 硬體路徑與配方——包括 NVIDIA 的 Blackwell／Rubin 級系統與 AMD 的 MI350 系列 GPU——都圍繞著一種叫 E2M1 的資料格式打轉。這篇論文指出了這個選擇的一個根本缺陷。

問題出在「收縮偏差」。研究團隊發現，E2M1 這類非均勻格式，因為可表示區間的幾何不對稱，天生會帶來系統性的負向捨入誤差。更麻煩的是，這個偏差會跨層相乘式地累積，並被常用的隨機哈達瑪變換（RHT）放大——這一口氣解釋了既有 E2M1 配方為什麼訓練老是不穩。過去常被歸咎於玄學的不穩定，其實有個可指認的幾何根源。

對策是回到均勻格網。論文證明，E1M2／INT4 這類均勻格式能繞過這種格網幾何誤差，並把 RHT 帶來的更佳區間利用率，更好地轉化成更高的量化品質。基於此，他們提出了均勻 4-bit 訓練方案 UFP4，在多種大型語言模型架構上都勝過 E2M1 方法。這類底層工作不像新模型發布那樣搶眼，卻直接關係到未來訓練一個大模型要燒多少卡、多少電——省下的每一分成本，最後都會回到所有使用者的帳單上。

歸剛點評｜訓練成本是 AI 規模化的硬天花板，FP4 能不能穩定訓練直接決定下一代模型的造價。這類找出根因、提出更省方案的底層研究，受惠的是整個產業的電費與算力帳。

來源：HF Papers

今日快訊