繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

Anthropic天價賠款?大模型「盜版」的100000種花樣

2025-08-17 15:00

一個更昂貴的AI時代來了。

作者丨黃小藝

來源丨硅星人Pro

AI大模型的祕密配方是什麼?答案可能很簡單:海量的「盜版內容」。

這幾乎是行業內公開的祕密。2023年,《紐約時報》一紙訴狀將OpenAI和微軟告上法庭,正式拉開了這場戰爭的序幕。很快,戰火燒遍了整個硅谷。Meta因其Llama模型涉嫌使用盜版書籍而面臨集體訴訟;Anthropic同樣因其模型Claude的訓練數據而被告,一時間,幾乎所有頭部玩家都被推上了被告席。

這場大模型與版權方的核心爭議是:在未經授權的情況下,將海量的受版權保護作品用作AI訓練數據,究竟是合法的「變革性使用」,還是「侵權盜用」?

在眾多懸而未決的案件中,進展最快是Anthropic案,在2025年6月的里程碑式裁決中,法院給出了一個極其重要的參考信號:模型訓練這一行為本身,因其能夠創造出功能完全不同的新事物,具有高度的「變革性」,可能不構成侵權;然而,獲取訓練數據的方式,如果涉及盜版網站或未經授權的複製,則幾乎無法被「合理使用」原則所豁免。

根據計算,Anthropic或將因此面臨着7500億美元的天價訴訟賠款。這個信號,讓所有AI公司都捏了一把汗。大模型廠商們「先污染,后治理」的野蠻生長,或許要到頭了。

大模型的N種數據「盜取」路徑

爲了滿足無止境的數據需求,各大模型廠商各自走出了一條充滿爭議甚至堪稱「腦洞大開」的野路子,每一種都遊走在法律邊緣。

一、從公開抓取到蓄意「清洗」

這是AI數據積累最原始、最普遍的方式。AI公司利用強大的網絡爬蟲,像撒下一張覆蓋全球互聯網的巨網,不加區分地將新聞網站、專業博客、學術論壇、社交媒體上的公開內容盡數捕撈,構建起初期的訓練數據集。

例如,OpenAI在構建其著名的WebText數據集時,就抓取了社交新聞網站Reddit上用户分享的數百萬個外部鏈接,間接將海量受版權保護的內容納入囊中,《紐約時報》的文章赫然在列。

除了抓取,更致命的是清洗行為。

在《紐約時報》和Daily News等媒體的訴訟中,原告指出,OpenAI在抓取新聞內容時,主動並系統性地移除了版權聲明、作者署名、頁腳等關鍵的版權管理信息(CMI)。這一行為被判定為數據獲取行為的性質發生了根本性的轉變——從可能無意的「順手牽羊」,升級為具有明確規避意圖的「數據清洗」。

二、格式轉換:從視頻和紙書中提取文本

隨着高質量的公開文本數據日益枯竭,廠商們將目光投向了其他格式的內容載體,通過技術手段,將其轉換為可供模型訓練的純文本,這種做法更為隱蔽。

一種典型手法是OpenAI對其語音識別工具Whisper的「妙用」。據稱,OpenAI利用Whisper轉錄了超過一百萬小時的YouTube視頻內容。這意味着,無論是深度訪談、專業課程還是紀錄片解説,這些視頻中最核心的「語言資產」,在未經視頻創作者許可的情況下,被悄然提取出來,直接「喂」給了GPT-4,繞過了視頻本身的視聽版權。

Anthropic也採用了一種戲劇性的手法。在意識到直接使用盜版書庫的巨大法律風險后,Anthropic專門聘請了前谷歌圖書掃描項目的負責人Tom Turvey,啟動了一項成本高昂、操作複雜的「物理世界洗白計劃」:

第一步,批量採購: 斥巨資從圖書分銷商和零售商處,購買數百萬本紙質書,其中不乏二手書。

第二步,物理轉化: 將這些書運至服務商處,由機器拆掉裝訂、裁切書頁,然后逐頁進行高速掃描,生成包含圖像和可機讀文本的PDF數字文件。

第三步,銷燬原件: 掃描完成后,紙質原件被直接丟棄。此舉的核心目的,是在法律上論證這是一種「格式轉換」,而非創造了「額外的副本」,從而規避侵權指控。

第四步,數據建庫: 為這些數字化的圖書建立詳細的書目信息數據庫,並進行分詞、清理等一系列複雜的預處理,最終形成一個來源上看似「合法」的高質量訓練數據集。

但這一行為,恰恰證明了:第一,AI公司已充分認識到高質量數據的版權價值;第二,獲取合規數據的成本,遠比想象中要驚人得多。

三、「影子圖書館」

在爭分奪秒的技術競賽和巨大的性能壓力下,部分公司選擇了一條最高效,也最高風險的捷徑——直接擁抱明確的盜版資源庫。

Meta在訓練其開源模型Llama時,就被直接指控使用了來自「影子圖書館」(如Library Genesis、Books3)的非法書籍副本。無獨有偶,Anthropic的內部文件也顯示,其聯合創始人在公司創立初期,就下載了包含近20萬本書的盜版庫Books3,並對這些資源的盜版性質心知肚明。

四、平臺藉助隱私協議獲取數據

與上述幾種「硬核」盜版方式不同,巨頭們展示了一種更具平臺特色的「陽謀」。它不依賴於外部抓取或盜版,而是利用其龐大的用户生態系統,通過服務條款來「合法」地將用戶數據內化為自己的訓練資源。

谷歌的隱私政策中,明確表示可能會使用用户公開分享的信息來訓練其AI模型。這意味着,當一個普通用户在Google Docs上協作一份文檔,在Google Maps上寫下一段評論,或是在Blogger上發佈一篇文章時,這些內容都可能在用户不經意間,被納入谷歌的AI訓練數據池,由此谷歌也構建起了一道競爭對手難以逾越的數據護城河。

這些五花八門、遊走在法律邊緣的數據獲取方式,顯示出在AI發展的「圈地」階段,大模型們都在以最低的成本、最快的速度,獲取最大規模的數據,數據來源的合規風險置於次要位置。然而,版權方的一系列訴訟徹底打破了這種默契,他們將攻擊焦點精準地對準了最脆弱的一環:數據的原始獲取路徑。

一個更昂貴的AI時代來了

AI版權戰爭的真正轉折點,是訴訟焦點的變化:不再糾纏AI「如何使用」數據,而是直擊它「從何獲取」數據。

最初,雙方的法律攻防主要圍繞AI「使用」數據的性質展開。

AI公司認為,它們的行為並非傳統意義的「複製」,而是「學習」,模型在內化數據中的模式、語法和知識,就像一個學生閲讀海量書籍以形成自己的寫作風格,其目的是創造全新的東西,因此是一種高度「變革性」的使用。版權方則反駁,AI的商業化產品會直接與原作形成市場競爭,替代用户對新聞訂閲和書籍購買的需求,從而損害其核心商業利益。

然而,在這兩個戰場上,版權方都打得異常艱難。在這種膠着狀態下,版權方的訴訟策略發生了一次決定性的轉向,他們找到了一個更根本、也更致命的攻擊點——數據的來源合法性。

法院的階段性審理,也給出了一個極其微妙且影響深遠的信號:一方面,初步裁決認為AI的輸出內容和訓練行為本身,因其「變革性」,或許不構成直接侵權,這在某種程度上為大模型的發展留下了空間,避免了技術創新被徹底扼殺;但另一方面,法院對「來源合法性」劃出了明確的紅線,嚴厲打擊了使用盜版資源的行為。

而面對如雪片般飛來的訴訟,大模型廠商中的激進派也在向保守派轉變。

保守派的代表就是蘋果,它從一開始就將用户隱私和規則置於更重要的位置,寧願在AI競賽中起步較晚,也要通過明確授權許可(如與圖片庫Shutterstock的合作)和自有數據來規避法律風險。

而激進派的Meta和早期的OpenAI,則是信奉「移動快,打破規則」的硅谷信條,將潛在的法律訴訟視為一種可以計算和承受的商業成本。但在訴訟纏身后,OpenAI迅速轉變為積極的數據「購買者」,斥巨資與美聯社、金融時報等數十家媒體簽署內容許可協議;Anthropic則上演了從使用盜版書庫,到斥巨資購買、掃描、銷燬實體書的「苦力式洗白」。

這些都意味着,「數據免費」的黃金時代已一去不復返,數據將成為AI公司財報上一個明確且高昂的成本項。

從整個行業來看,手握優質內容的內容出版商、新聞機構,將從被動的受害者,轉變為AI產業鏈上游一個手握籌碼、擁有強大議價權的關鍵參與者;這反過來又會急劇抬高行業的競爭壁壘,擁有強大現金流和頂尖法務團隊的科技巨頭相比AI創業公司將有着更強的競爭優勢。AI行業的競爭,已從單純的算法和算力競賽,擴展到了一場關於數據供應鏈管理、商業談判和法務合規能力的全面戰爭。

當那些充滿爭議的盜版「野路子」被一條條堵死,一個更加昂貴的AI時代,已經來了。

本文僅代表原作者觀點,不代表投中網立場

轉載、合作、加入粉絲羣請聯繫小助理

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。