研究・2026-07-05

WARP：只看權重，就能反推模型吃了什麼訓練資料

開放權重模型滿天飛，訓練資料的「配方」卻始終是黑箱——各來源資料按什麼比例混合（domain mixture weights），廠商幾乎從不揭露。今天登上 HF 日榜的 WARP（Weight-Space Analysis for Recovering Training Data Portfolios）直攻要害：僅憑釋出的模型權重，反推訓練資料的領域混合比例，不需要存取訓練過程或原始資料。

方法論走權重空間分析路線：不同的資料配方會在權重上留下可辨識的統計簽名，拿已知配方訓練的模型當參照系，就能對未知模型做配方估計。用途相當廣：審計者可以檢驗廠商宣稱的資料構成是否屬實，版權方可以評估特定領域內容被使用的濃度，研究者則多了一個理解「配方如何塑造能力」的觀測窗。

放在今天的新聞流裡讀，位置更清楚：Midjourney 與好萊塢的官司正卡在「誰用了什麼資料」的證據開示攻防，同人圈為了偵測 AI 參與吵成一團——整個生態都在要求可驗證性。訓練資料的透明度過去只能靠廠商自律與白皮書上的一行話，權重取證（weight forensics）這類工具若成熟，「不揭露」的成本會越來越高，因為別人測得出來。

技術還在早期，估計精度與對抗規避的穩健性都待檢驗，但方向已經立起來：權重本身就是證據。

歸剛點評｜配方反推工具一旦可靠，「訓練資料不可考」的擋箭牌就碎了——版權訴訟、模型審計、出口管制查核全都用得上。發布開放權重模型的團隊，最好從現在開始假設：你餵了什麼，遲早有人測得出來。

來源：Hugging Face Papers

歸剛誒AI

WARP：只看權重，就能反推模型吃了什麼訓練資料

同期其他文章