熱門資訊> 正文
2025-09-16 19:31
來源:新智元
數據是AI的糧食,「一頓不吃餓得慌」,數據供給充足,模型才能全力以赴。
我們如今用着的強大模型,背后使用了互聯網上的海量數據用於訓練。
隨着硬件與成本的限制,研究者逐漸意識到:光靠堆數據已經難以為繼,能否更好地利用數據,纔是決定未來性能的關鍵。
然而,有三個棘手的問題一直難以解決:
第一,公網上可供使用的數據正在逐漸枯竭,預計十年內就會用完。
第二,大量用户生成的內容雖然存在,但含有隱私信息、攻擊性語言或版權內容,無法直接使用。
第三,合成數據生成雖是出路,但往往存在多樣性不足、與真實數據差距大等問題。
爲了解決這些問題,谷歌DeepMind研究團隊於昨日公開發表了一篇研究論文:《Generative Data Refinement: Just Ask for Better Data》。
https://arxiv.org/pdf/2509.08653
這篇論文的第一作者是華人Minqi Jiang,今年也從DeepMind跳槽去了最近處於風口浪尖的Meta Superintelligence Labs。
回到論文。這篇論文提出了一種新方法:生成式數據精煉(Generative Data Refinement, GDR)。
它的核心思路是——不直接生成全新的數據,而是利用大模型把原始數據「淨化」、改寫的同時保留有用信息,去掉隱私或有害部分。
換句話説,GDR就像一個「數據清洗器」,既能讓髒數據變乾淨,又能保持原本的知識價值。
GDR的基本思路
傳統的合成數據生成依賴大模型反覆採樣,但容易產生同質化輸出,多樣性不足。
而GDR採取了顛覆傳統思路的方法:
輸入部分使用真實世界數據(例如代碼、對話、網頁內容),處理部分使用大模型作為生成器,按預設規則改寫(比如去掉隱私、降低毒性),最終輸出一個精煉數據集,既安全又保持原始多樣性。
論文中較為詳細地介紹了GDR的具體工作流程:
第一步,輸入數據:
包括原始文本、代碼、對話或網頁數據。
數據中可能含有PII、毒性語言、或其他不可用於訓練的內容。
第二步,Prompt構造:
給大模型設計一個Prompt,告訴它要做什麼:
如果是匿名化任務:提示要求「識別並替換掉敏感信息,用安全佔位符替代」;
如果是去毒化任務:提示要求「刪除冒犯性表達,但保留事實性內容」。
提示可以是零樣本,也可以加入示例,甚至通過微調來增強模型能力。
第三步,生成改寫:
模型根據提示,對每個輸入樣本生成一個新的版本。輸出的目標是安全、合理、保留上下文信息。
第四步,驗證與篩選:
對生成結果運行驗證(例如再跑一次PII檢測、或用毒性分類器評估),過濾掉不合格的結果,確保數據集安全。
最后一步,得到精煉數據集D′,可作為訓練數據反覆使用。
數據多樣性依然保持住了,甚至優於直接合成數據。
這種方法有三大優勢:
繼承真實數據的多樣性,因為每條合成數據都「錨定」在一個真實樣本上。
避免模式坍縮,不像單純的合成數據那樣,容易收斂到幾種套路化表達。
適配不同任務,只需換提示詞或微調,就能針對匿名化、去毒化等不同場景。
當然,GDR的代價是需要額外的計算。最壞情況下,相當於再訓練1/3次模型。
但一旦得到乾淨數據,它可以反覆使用,長期來看非常划算。
爲了驗證GDR的效果,文章進行了三個不同角度的實驗。
實驗一:代碼匿名化
代碼庫中常常藏着敏感信息,例如郵箱、密碼、API Token、私有URL。
這些信息如果進入訓練數據,不僅存在泄露風險,還可能導致模型在輸出時「背誦」隱私。
傳統做法是DIRS服務:只要檢測到可能的PII,就直接丟棄整個文件。但這種「寧可錯殺」的方式,可能導致數百萬行有價值的代碼被浪費。
研究者在120萬行、479個開源庫上對比了GDR與DIRS:
行級別標註結果表明:GDR能更精準地找到PII,並用佔位符替換;
DIRS誤判率高,大量無害數據被誤刪;
GDR雖然有少量誤報(比如把安全的變量名也替換掉),但這些大多可以通過靜態分析檢測並修復。
實驗結果表明,GDR在保持數據可用性方面,遠優於DIRS服務這類傳統方法,是大規模代碼匿名化的可行方案。
實驗二:對話去毒化
如仇恨言論、性別歧視和惡俗等有害內容,在網絡上比比皆是。
直接訓練這樣的數據可能讓模型學會錯誤的價值觀,甚至輸出危險內容。
研究團隊選擇了臭名昭著的4chan /pol/討論區(某種程度上類似國內孫笑川吧的一個充滿惡意內容的互聯網社區)數據集,抽取了10萬個對話對(pol100k),然后用Gemini Pro 1.5零樣本提示進行GDR去毒化。
Perspective API毒性評分:pol100k為0.19,GDR精煉后降到0.13,甚至低於同模型生成的SyntheticChat(0.14)。
UMAP可視化顯示,精煉數據的分佈依舊接近真實數據,而純合成數據出現了明顯的模式坍縮。
研究者讓模型在去毒化數據上微調后,發現它仍然能保留世界知識,並且生成風格更接近人類。檢測系統甚至有31%的概率分不清它和人類對話。
實驗結果表明,GDR清洗有害數據的同時,也保留了其中包含的知識,「出淤泥而不染」,「擇善而從」。
實驗三:多樣性對比
研究者使用了ROUGE-2和嵌入余弦距離指標比較pol100k、精煉版和SyntheticChat。
GDR精煉后的數據,多樣性不僅比SyntheticChat高,還略微超過了原始數據。
實驗結果表明,GDR不僅起到了安全過濾的作用,還順帶增強了數據的多樣性,一舉多得。
GDR:變廢為寶的「點金術」
GDR就像數據世界的「淨水器」,把雜質過濾掉,卻讓養分完整保留。
它把原本的髒數據變成「可用燃料」,為大模型的發展輸送源源不斷的清潔能量。
它是AI時代能變廢為寶的「點金手」。
在數據枯竭與隱私風險的雙重挑戰下,GDR提供了一條出路。
未來的大模型的持續進化,離不開這些人類的巧思與苦功。
(聲明:本文僅代表作者觀點,不代表新浪網立場。)