熱門資訊> 正文
2024-12-06 10:05
來源:鈦媒體
面對芯片備受限制的困境,中國雲計算產業能做什麼?
12月3日,中國半導體行業協會、中國互聯網協會、中國汽車工業協會和中國通信企業協會先后發佈聲明,呼籲國內企業謹慎採購美國芯片,擴大與其他國家和地區芯片企業合作,積極使用內外資企業在華生產製造的芯片。
就在前一日,美國商務部工業和安全局(BIS)發佈了最新的對華半導體出口管制措施,將136家中國實體列入了所謂「實體清單」,涉及半導體制造設備、電子設計自動化工具等多個種類的半導體產品。
2022年、2023年的10月份,BIS均發佈了針對中國半導體限制的措施,今年由於美國大選影響迟迟未發,但加強版的限制措施還是不出意料地到來。四大協會所在的領域代表着萬億級別的市場,「美國芯片產品不再可靠、不再安全」的表達,也傳遞出直接的態度。
與以往不同,本次禁令着重對高帶寬內存(HBM)管制,明顯針對人工智能領域,HBM是大模型等高端AI任務中必需芯片,適用於海量數據的高速傳輸,HBM的主要製造商:包括韓國的SK海力士、三星電子以及美國的美光科技。
芯片是數字基礎設施的基礎,除了芯片之外,從全球範圍觀測,雲計算廠商正在扮演中堅力量的角色。大模型時代的雲計算,向上接入操作系統、應用軟件等,基於雲的開發方式成為主流,向下定義硬件,自研芯片、服務器、操作系統等底層技術,這一趨勢更為明顯。
而對於中國雲計算而言,在芯片層受到的限制更為嚴峻,IT從業者們正在從不同維度、不同層面發力,試圖解決或者緩解芯片禁令帶來的影響,雲計算在重壓之下被賦予了更緊要的使命。
雲廠商,「苦英偉達久矣」
英偉達GPU芯片客觀上促進了大模型的爆發,但是英偉達的壟斷地位,攫取了大模型產業發展至今的絕大部分利潤,已經引起產業各方的抱怨,不同廠商都開始用自己的方式降低「英偉達依賴」,其中又以雲服務商為最。
據報道,今年早些時間,美國司法部近期收到了包括AMD和AI芯片初創公司在內的英偉達競爭對手的投訴,稱英偉達會將芯片與其他產品捆綁銷售,同時可能存在限制客户購買英偉達競爭對手的行為,比如漲價或者降低採購數量等。
雲服務商是芯片產業的最大客户之一,據 TrendForce 統計數據,2022 年 AI 服務器採購中,北美四大雲服務商微軟、谷歌、Meta、亞馬遜位居前列,合計佔比 66.2%。而隨着大模型競爭門檻的提高,巨頭集中效應還在加劇。
不論國內還是國外,基礎大模型的預訓練,都以大算力集羣的雲基礎設施為主。OpenAI早期的大模型都是在微軟Azure上訓練出來的,目前雙方正在共建一個代號為 「星際之門」 的巨型數據中心項目,項目預計成本超過 1150 億美元,將配備數百萬塊 GPU。
再如,在AWS re:Invent 2024上,Anthropic聯合創始人Tom Brown宣佈了下一代Claude大模型將在AWS的Project Rainier上進行訓練,這將是一個擁有數十萬Amazon Tranium2(亞馬遜自研機器學習訓練芯片)的算力集羣。
除了海外雲服務商,國內雲服務商以華為、阿里為代表,也在數年之前就開始研發芯片,美國禁令讓這一目標的實現難上加難,註定了中國雲服務商需要更多的替代式創新,從而彌補芯片層面的不足。
根據SIA和Techinsights數據,2023年中國大陸約佔全球半導體市場需求的30%,而產值約佔全球7%,對應自給率約23%,其中12%為中國本土企業(狹義自給率),11%為外企在中國大陸製造。
雲巨頭自研芯片做系統創新已經成為共識,一位國內雲廠商戰略人士表示,以大模型為代表的AI技術革命,可以認為是對整個計算機科學的一次革命,AI和雲的結合,會重新定義AI,也會重新定義從芯片到服務器等所有軟硬件。
半導體產業是一個技術複雜、產業結構高度專業化的生態體系,規模擴張建立在技術成熟、分工進一步細化的基礎上,而目前x86體系數十年建立的體系正在被大模型衝擊。一位行業人士表示,如果沒有大模型,產業還會沿着原有的方向,格局固化、技術小改,英特爾的衰敗和英偉達的崛起,也不會發生,但是技術革命必然會出現。
「美國因為人工智能對中國加以限制,實際上也是因為產業秩序正在重新建立,美國贏在了x86通用計算的時代,智算時代會涌現出新的領導者,美國當然不希望出現在中國。」他補充説道。
目前,全球領先的大模型公司已經有了共識,追求端到端的全鏈路協同優化。做模型的公司希望能和計算公司走到一起,把自己對於模型最前瞻的理解和下一步演進的態勢和雲計算公司做溝通,希望雲計算公司對他的模型做優化,雲計算公司又會進一步再向下傳遞,與芯片公司做溝通。
整個體系革新互為牽引,AI競爭的終局是能夠在全棧體系里面做端到端的系統級優化,不僅AWS、微軟和谷歌等雲廠商,通過自研、投資等方式和大模型廠商深度綁定,就連英偉達也投資了雲計算公司,並且做了自己的大模型。
用異構計算和算力堆疊,換芯片產業發展時間
在可預期的數年時間里,隨着大模型產業的高速增長,芯片產業還將呈發散式的擴張邏輯,芯片的種類會更多,技術路線也較難收斂,多種芯片共存的現狀不會改變。
「一雲多芯」,對於中國雲廠商有獨特的意義。海外雲廠商不受芯片限制影響,更多是出於業務自由選擇兼容自研芯片等,而國內雲廠商採用「一雲多芯」的方式,能夠在一定程度上屏蔽不同芯片的差異。
起初,雲廠商的解決方案是,每一種類型的芯片集羣都單獨建雲,在形成多雲后通過雲管理平臺從軟件層面進行統一管理,但是多朵雲分資源統一調度難,多雲/多AZ對客户的機房規劃、建設預算艷秋高等問題,註定該方案不是最佳選擇。
「一雲多芯」將所有異構算力統一納管,把不同的芯片等硬件封裝成標準算力,從客户視角看無需太過關注芯片,兼容適配等工作由雲廠商解決,這也是當前芯片形式下的必經之路,其中的關鍵是雲操作系統,典型如阿里雲的飛天操作系統、百度的萬源操作系統。
不同的芯片之間很難互聯,且不同芯片間沒法在同一張網里面跑同一個任務,目前只有少部分廠商實現。狹義的「一雲多芯」是指在一個雲平臺內可同時採用多種異構CPU等類型的國產芯片,而廣義的「一雲多芯」要求提供從CPU擴展到GPU、網絡設備,以及各類行業生態應用、客户自建應用的全域兼容能力。
譬如在CPU層面,雲服務商需要支持intel、海光、鯤鵬、飛騰等共多種芯片,在GPU層面支持Nvidia、華為昇騰、海光DCU、寒武紀等主流AI芯片。
另外一種方式是多芯片堆疊,用算力集羣來解決單芯片能力不足的問題,尤其在AI芯片層面禁運形勢嚴峻的情況下,是大家正在探索的高端AI算力解決方案。不過當芯片數量增加到一定程度時,由於芯片之間的通信和互連限制,系統的性能反而會下降。
例如華為雲今年推出的下一代雲基礎設施CloudMatrix,一方面,華為受到美國製裁更早,更有動力研究替代創新方案;另一方面,華為有自研的昇騰芯片系列,如何發揮芯片堆疊的效果,用雲計算探索新的基礎設施也在預料之中。
據瞭解,CloudMatrix也是先實現了「一雲多芯」,將服務器內的 CPU、NPU、DPU、存儲和內存等多樣資源的統一池化並靈活配置,以此形成大規模、緊耦合的多元算力池化架構,之后的關鍵是高效傳輸網絡。
CloudMatrix 通過超高帶寬 ScaleUp 網絡從「傳統以太網」向「共享總線以太網」演進,實現池化算力的高速互聯,新的網絡協議實現跨物理服務器的統一標識、統一的訪問和消息通信機,從而實現 CPU、NPU、存儲內存等多樣資源的跨服務器統一池化,通過資源全部對等連接,既可以水平擴展,更可以垂直擴展。簡單一句話,就是在一定範圍內,堆疊之后的芯片可以實現近乎線性的算力增長。
展望未來,中國雲計算行業不得不面對芯片長期受限的形勢,既要與國際主流發展趨勢接軌,也要兼顧國產芯片的特殊環境,中國雲計算廠商需要在軟硬件設施層面協同創新,方能解決緩解部分芯片產業的難題,用異構計算和算力堆疊等方式,換取芯片產業發展的時間。(本文首發於鈦媒體APP,作者 | 張帥,編輯 | 蓋虹達)
特別聲明:以上內容僅代表作者本人的觀點或立場,不代表新浪財經頭條的觀點或立場。如因作品內容、版權或其他問題需要與新浪財經頭條聯繫的,請於上述內容發佈后的30天內進行。