繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

谷歌DeepMind「糞坑淘金」全新方法,暗網毒數據也能訓出善良模型

2025-09-16 19:31

來源:新智元

數據是AI的糧食,「一頓不吃餓得慌」,數據供給充足,模型才能全力以赴。

我們如今用着的強大模型,背后使用了互聯網上的海量數據用於訓練。

隨着硬件與成本的限制,研究者逐漸意識到:光靠堆數據已經難以為繼,能否更好地利用數據,纔是決定未來性能的關鍵

然而,有三個棘手的問題一直難以解決:

第一,公網上可供使用的數據正在逐漸枯竭,預計十年內就會用完。

第二,大量用户生成的內容雖然存在,但含有隱私信息、攻擊性語言或版權內容,無法直接使用。

第三,合成數據生成雖是出路,但往往存在多樣性不足、與真實數據差距大等問題。

爲了解決這些問題,谷歌DeepMind研究團隊於昨日公開發表了一篇研究論文:《Generative Data Refinement: Just Ask for Better Data》。

論文地址:

https://arxiv.org/pdf/2509.08653

這篇論文的第一作者是華人Minqi Jiang,今年也從DeepMind跳槽去了最近處於風口浪尖的Meta Superintelligence Labs。

回到論文。這篇論文提出了一種新方法:生成式數據精煉(Generative Data Refinement, GDR)

它的核心思路是——不直接生成全新的數據,而是利用大模型把原始數據「淨化」、改寫的同時保留有用信息,去掉隱私或有害部分

換句話説,GDR就像一個「數據清洗器」,既能讓髒數據變乾淨,又能保持原本的知識價值。

GDR的基本思路

傳統的合成數據生成依賴大模型反覆採樣,但容易產生同質化輸出,多樣性不足。

而GDR採取了顛覆傳統思路的方法:

輸入部分使用真實世界數據(例如代碼、對話、網頁內容),處理部分使用大模型作為生成器,按預設規則改寫(比如去掉隱私、降低毒性),最終輸出一個精煉數據集,既安全又保持原始多樣性。

論文中較為詳細地介紹了GDR的具體工作流程

第一步,輸入數據:

包括原始文本、代碼、對話或網頁數據。

數據中可能含有PII、毒性語言、或其他不可用於訓練的內容。

第二步,Prompt構造:

給大模型設計一個Prompt,告訴它要做什麼:

如果是匿名化任務:提示要求「識別並替換掉敏感信息,用安全佔位符替代」;

如果是去毒化任務:提示要求「刪除冒犯性表達,但保留事實性內容」。

提示可以是零樣本,也可以加入示例,甚至通過微調來增強模型能力。

第三步,生成改寫:

模型根據提示,對每個輸入樣本生成一個新的版本。輸出的目標是安全、合理、保留上下文信息。

第四步,驗證與篩選:

對生成結果運行驗證(例如再跑一次PII檢測、或用毒性分類器評估),過濾掉不合格的結果,確保數據集安全。

最后一步,得到精煉數據集D′,可作為訓練數據反覆使用。

數據多樣性依然保持住了,甚至優於直接合成數據。

這種方法有三大優勢:

  • 繼承真實數據的多樣性,因為每條合成數據都「錨定」在一個真實樣本上。

  • 避免模式坍縮,不像單純的合成數據那樣,容易收斂到幾種套路化表達。

  • 適配不同任務,只需換提示詞或微調,就能針對匿名化、去毒化等不同場景。

當然,GDR的代價是需要額外的計算。最壞情況下,相當於再訓練1/3次模型。

但一旦得到乾淨數據,它可以反覆使用,長期來看非常划算。

爲了驗證GDR的效果,文章進行了三個不同角度的實驗。

實驗一:代碼匿名化

代碼庫中常常藏着敏感信息,例如郵箱、密碼、API Token、私有URL。

這些信息如果進入訓練數據,不僅存在泄露風險,還可能導致模型在輸出時「背誦」隱私。

傳統做法是DIRS服務:只要檢測到可能的PII,就直接丟棄整個文件。但這種「寧可錯殺」的方式,可能導致數百萬行有價值的代碼被浪費。

研究者在120萬行、479個開源庫上對比了GDR與DIRS:

  • 行級別標註結果表明:GDR能更精準地找到PII,並用佔位符替換;

  • DIRS誤判率高,大量無害數據被誤刪;

  • GDR雖然有少量誤報(比如把安全的變量名也替換掉),但這些大多可以通過靜態分析檢測並修復。

實驗結果表明,GDR在保持數據可用性方面,遠優於DIRS服務這類傳統方法,是大規模代碼匿名化的可行方案。

實驗二:對話去毒化

如仇恨言論、性別歧視和惡俗等有害內容,在網絡上比比皆是。

直接訓練這樣的數據可能讓模型學會錯誤的價值觀,甚至輸出危險內容。

研究團隊選擇了臭名昭著的4chan /pol/討論區(某種程度上類似國內孫笑川吧的一個充滿惡意內容的互聯網社區數據集,抽取了10萬個對話對(pol100k),然后用Gemini Pro 1.5零樣本提示進行GDR去毒化。

  • Perspective API毒性評分:pol100k為0.19,GDR精煉后降到0.13,甚至低於同模型生成的SyntheticChat(0.14)。

  • UMAP可視化顯示,精煉數據的分佈依舊接近真實數據,而純合成數據出現了明顯的模式坍縮。

  • 研究者讓模型在去毒化數據上微調后,發現它仍然能保留世界知識,並且生成風格更接近人類。檢測系統甚至有31%的概率分不清它和人類對話。

實驗結果表明,GDR清洗有害數據的同時,也保留了其中包含的知識,「出淤泥而不染」,「擇善而從」。

實驗三:多樣性對比

研究者使用了ROUGE-2和嵌入余弦距離指標比較pol100k、精煉版和SyntheticChat。

GDR精煉后的數據,多樣性不僅比SyntheticChat高,還略微超過了原始數據。

實驗結果表明,GDR不僅起到了安全過濾的作用,還順帶增強了數據的多樣性,一舉多得。

GDR:變廢為寶的「點金術」

GDR就像數據世界的「淨水器」,把雜質過濾掉,卻讓養分完整保留。

它把原本的髒數據變成「可用燃料」,為大模型的發展輸送源源不斷的清潔能量。

它是AI時代能變廢為寶的點金手

邁達斯之手 邁達斯之手

在數據枯竭與隱私風險的雙重挑戰下,GDR提供了一條出路。

未來的大模型的持續進化,離不開這些人類的巧思與苦功。

(聲明:本文僅代表作者觀點,不代表新浪網立場。)

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。