熱門資訊> 正文
2026-06-29 11:49
AI版權戰,正在從「誰訓練了模型」,追問到「誰幫助模型完成了訓練」。
如果説OpenAI是站在臺前的模型開發者,那麼微軟這一次被推到聚光燈下,問的是另一個更深的問題,當一家企業提供超級算力、定製系統、商業入口和產品分發能力時,它還能不能只說自己是「中立的基礎設施提供者」?
2026年6月25日,《紐約時報》在針對OpenAI和微軟的版權訴訟中申請提交第三次修訂訴狀。新的訴狀將矛頭進一步指向微軟,指控其並非只是被動受益於OpenAI使用版權內容訓練AI模型,而是通過構建定製化超級計算系統,主動誘導、幫助並促成了大規模版權侵權。
按照相關報道,這套超級計算系統包含超過285,000個CPU核心和10,000個GPU。《紐約時報》試圖藉此説明,微軟不是普通雲服務商,而是在OpenAI大模型訓練能力形成過程中,提供了關鍵基礎設施和技術條件。
幾乎與此同時,代表近400家美國地方報紙的出版方也對微軟和OpenAI提起訴訟,指控二者未經許可抓取、複製大量新聞文章,用於訓練ChatGPT、Copilot等AI產品。原告還主張,OpenAI使用「Dragnet」「Newspaper」等文本提取工具時,故意剝離文章中的作者署名、版權聲明和使用條款,可能違反美國《數字千年版權法》(以下簡稱DMCA)有關版權管理信息保護的規定。
這兩組案件釋放出一個非常清晰的信號,AI版權訴訟已經不再只盯着模型公司,而是開始沿着技術鏈條、商業鏈條和責任鏈條向外擴散。
過去討論AI訓練版權爭議,核心問題通常集中在OpenAI這類模型開發者身上。訓練數據是否包含受版權保護作品?訓練行為是否構成複製?模型輸出是否替代原作品?能否適用合理使用?
但《紐約時報》此次修改訴狀的重點,是把微軟放進一個更主動的位置。
原告試圖證明,微軟並不是一個遠離訓練過程的投資方,也不是單純出售算力的雲服務提供者,而是通過深度定製的超級計算系統,為OpenAI的大規模訓練提供了關鍵條件。
這就把案件焦點從「直接侵權」進一步推向「幫助侵權」「誘導侵權」或者「共同侵權」的邊界。
換句話説,法院未來可能需要回答的問題是,如果一個主體沒有直接抓取文章,沒有直接訓練模型,但它明知或應知相關訓練依賴大規模版權內容,仍然提供專門設計的算力、系統和商業支持,它是否可能成為AI侵權責任鏈條的一部分?
標題中「共犯」的真正含義可以理解為,AI侵權不能永遠只追到模型開發者為止。
微軟和OpenAI的關係,並不是普通供應商和客户關係。
微軟既是OpenAI的重要投資方,也是其雲計算和算力基礎設施提供方;同時,微軟還把OpenAI模型能力整合進Copilot、Bing、Office、Azure等產品和服務之中。
這使微軟很難把自己描述成一個完全中立、完全外部、完全不知道下游用途的基礎設施提供者。
如果只是通用雲服務,責任邊界相對清楚。雲廠商提供服務器,客户自己上傳數據、訓練模型、部署應用,雲廠商通常不會因為客户使用雲資源實施侵權而當然承擔責任。
但如果基礎設施是為特定模型訓練高度定製的,如果服務方深度參與訓練架構設計,如果它知道訓練行為需要海量文本內容,如果它又從下游AI產品中持續獲得商業利益,那麼「中立工具」的抗辯就會變得困難。
這正是《紐約時報》訴狀的攻擊方向。
它不是簡單説微軟「有錢」「有技術」「有合作」,而是試圖證明微軟在OpenAI訓練能力形成過程中具有實質性貢獻。
如果説《紐約時報》的訴訟代表頭部媒體的強勢維權,那麼近400家地方報紙的集體訴訟,則代表新聞行業更廣泛的生存焦慮。
地方報紙不是技術巨頭,也不是流量平臺。它們的價值來自長期採編、地方調查、社區報道、事實覈查和公共記錄維護。
這些內容如果被AI系統無償抓取、複製、訓練,再通過ChatGPT、Copilot等產品重新包裝輸出,地方媒體面對的就不僅是版權損失,而是入口損失、流量損失、訂閲損失和廣告損失。
也就是説,AI並不只是「學習」了新聞內容,還可能改變用户獲取新聞的路徑。
過去用户需要訪問報紙網站、閲讀原文、產生點擊、訂閲和廣告收入;現在用户可能直接向AI提問,得到摘要、答案和整理后的信息。內容生產者投入成本,AI產品拿走入口,平臺獲得商業價值,新聞機構卻被擠出分配鏈條。
這正是內容方最不能接受的地方。
AI訓練數據爭議,本質上不是「技術創新與傳統版權」的抽象衝突,而是一個非常具體的利益分配問題。
誰生產內容?誰承擔成本?誰拿走數據?誰獲得估值?誰被市場替代?
這批地方報紙訴訟中,DMCA相關主張值得特別關注。原告並不只是説自己的文章被複制,還主張OpenAI在使用文本提取工具處理內容時,移除了文章中的作者署名、版權聲明和使用條款等版權管理信息。
這個指控如果成立,意義會超過普通版權侵權。
因為普通侵權關注的是「你有沒有拿走作品」;DMCA版權管理信息規則關注的則是「你是不是在拿走作品之前,先把權利標籤撕掉」。
在AI訓練場景中,這一點尤其敏感。
大規模數據處理通常要經過抓取、清洗、去重、切片、標註、向量化等環節。很多工程系統會把作者、來源、版權聲明、網站條款、許可限制視為「噪聲」,在清洗過程中一併刪除。
但從版權合規角度看,這些信息恰恰不是噪聲,而是權利邊界。AI訓練不是把數據洗得越乾淨越好。有些「髒信息」,恰恰是權利人的保護邊界。
微軟和OpenAI很可能繼續主張合理使用。
這也是美國AI版權訴訟中最核心的抗辯之一:大模型訓練不是爲了複製原文,而是爲了學習語言規律和知識關聯;訓練具有轉換性;如果禁止使用公開互聯網內容訓練AI,將阻礙技術創新。
這個抗辯仍有空間。
但內容方也在強化反擊邏輯:新聞作品具有高投入、高時效和高市場價值;AI產品可能生成摘要、替代閲讀、截流訪問;如果訓練數據包含付費牆內容、訪問限制內容,甚至存在版權管理信息被剝離的情況,那麼「合理使用」的正當性就會被削弱。
AI版權案正在從價值爭論,變成證據工程。
這組案件對中國企業的提醒非常直接。
今天很多企業不會自己從零訓練大模型,而是與模型公司、雲廠商、數據供應商、行業客户共同開發垂直AI應用。越是合作鏈條複雜,越容易出現責任錯位。
技術團隊關心模型效果,業務團隊關心上線速度,法務團隊如果只在合同末端補一條「對方保證數據合法」,遠遠不夠。
企業至少要提前壓實五件事。
第一,數據來源要可解釋。
第二,授權範圍要寫清楚。
第三,版權信息要保留。
第四,技術過程要留痕。
第五,合作責任要切開。
AI合規不是產品上線前的包裝動作,而是數據進入系統前的基礎工程。
未來的AI競爭,不只比模型參數,也比數據來源;不只比算力規模,也比權利鏈條;不只比產品速度,也比合規底座。
AI可以訓練世界,但不能把別人的內容當成無主燃料。誰把內容當燃料,誰就要準備回答,這把火,是誰點的?
本文來自微信公眾號「知產力」(ID:zhichanli),作者:Shawn/MCP,36氪經授權發佈。