WARP:只看權重,就能反推模型吃了什麼訓練資料
開放權重模型滿天飛,訓練資料的「配方」卻始終是黑箱——各來源資料按什麼比例混合(domain mixture weights),廠商幾乎從不揭露。今天登上 HF 日榜的 WARP(Weight-Space Analysis for Recovering Training Data Portfolios)直攻要害:僅憑釋出的模型權重,反推訓練資料的領域混合比例,不需要存取訓練過程或原始資料。
方法論走權重空間分析路線:不同的資料配方會在權重上留下可辨識的統計簽名,拿已知配方訓練的模型當參照系,就能對未知模型做配方估計。用途相當廣:審計者可以檢驗廠商宣稱的資料構成是否屬實,版權方可以評估特定領域內容被使用的濃度,研究者則多了一個理解「配方如何塑造能力」的觀測窗。
放在今天的新聞流裡讀,位置更清楚:Midjourney 與好萊塢的官司正卡在「誰用了什麼資料」的證據開示攻防,同人圈為了偵測 AI 參與吵成一團——整個生態都在要求可驗證性。訓練資料的透明度過去只能靠廠商自律與白皮書上的一行話,權重取證(weight forensics)這類工具若成熟,「不揭露」的成本會越來越高,因為別人測得出來。
技術還在早期,估計精度與對抗規避的穩健性都待檢驗,但方向已經立起來:權重本身就是證據。
歸剛點評|配方反推工具一旦可靠,「訓練資料不可考」的擋箭牌就碎了——版權訴訟、模型審計、出口管制查核全都用得上。發布開放權重模型的團隊,最好從現在開始假設:你餵了什麼,遲早有人測得出來。