熱門資訊> 正文
2024-09-16 14:30
隨着人工智能時代的到來,GPU成爲了所有人關注的焦點。
但想要*化程度發揮出GPU的AI訓練與推理功能,還要藉助數據中心的力量,一座AI數據中心里往往裝着數以萬計的GPU,正是通過這種協同作用,纔有了像 ChatGPT 這樣功能強大的聊天機器人。
但AI數據中心的價格並不低,動輒數十億美元的造價,不止是科技巨頭們的專屬,也讓很多實力並不雄厚的國家地區望而卻步。
隨着使用人工智能所能做的事情越來越多,高端芯片的地緣政治重要性也與日俱增,越來越多的國家和地區正在競相囤積芯片,甚至還頒佈了阻止部分國家地區購買最尖端芯片的制裁措施,但截至目前,關於全球人工智能芯片的確切位置的公開數據卻出奇地缺乏。
來自牛津大學互聯網研究所教授 Vili Lehdonvirta揭露了一個不可忽視的現實:GPU 高度集中在全球僅 30 個國家地區之中,其中,美國和中國遙遙*,而大部分地區都處於所謂的「計算荒漠」中:根本沒有 GPU 可供租用。
如何調查分佈
全球AI計算供應鏈大致可以分為四個部分:
在GPU設計和銷售方面的市場*是總部位於美國的Nvidia公司,芯片製造由臺灣的臺積電(TSMC)主導,而荷蘭的ASML目前是*生產光刻機的公司,這些機器對於製造*進的芯片至關重要(Miller 2022)。因此,計算供應鏈的這些部分在地理位置和所有權方面都高度集中。
這項研究關注的是供應鏈的第三步:全球哪些地區部署了芯片來提供AI計算以用於AI開發和部署,也就是用於訓練AI模型和運行現有模型的推理。大致上,有三類大規模的計算提供者:科學超級計算設施、私人計算集羣和所謂的公共雲計算提供者。
科學超級計算設施自20世紀60年代初以來就已存在,通常由政府資助,主要用於學術和軍事目的。OECD(2023)的一項研究對科學超級計算設施進行了簡單的地理分析。根據TOP500數據庫,中國的超級計算機數量最多,佔32%;其次是美國,佔25%;歐盟佔21%。然而,大多數科學超級計算機並非為AI模型訓練設計(OECD 2023)。當前生成式AI發展的繁榮主要依賴於私人計算集羣和公共雲計算。之前的研究並未詳細分析它們的地理分佈。
私人計算集羣由營利性公司擁有,如Meta、HP以及許多小型公司。這些集羣由部署在數據中心的GPU互連計算機組成。一個私人集羣既可以用於該公司的AI開發,也可以租給其他公司使用。公共雲計算提供者同樣是營利性公司。它們之所以被稱為「公共」,並不是因為與政府有關,而是因為它們的服務是按需提供的,並由多個客户共享(即類似於酒館中「公共」的含義,而不是公共部門的「公共」)。公共雲計算市場的*包括AWS、Microsoft Azure和Google Cloud;中國的公共雲提供者阿里巴巴和騰訊也提供大規模AI計算。這些大型提供者通常被稱為「超大規模計算提供者」。
其中該研究主要關注了公共雲AI計算的地理分佈。私人計算集羣曾用於訓練一些標誌性模型,如Meta的Llama和Llama 2。但大量前沿AI模型的訓練和開發集中在公共雲的超大規模提供者Google、Microsoft和Amazon,以及它們與*AI公司的「計算合作伙伴關係」中,如Anthropic、Cohere、Google DeepMind、Hugging Face、OpenAI和Stability AI。公共雲還很重要,因為它對許多不同類型的開發人員開放,包括學術研究人員。因此,我們的主要研究問題是:全球公共雲AI計算的地理分佈情況如何?我們還將探討這些地理分佈的潛在原因,討論它們對計算治理和地緣政治的影響,最后簡要討論私人集羣和政府擁有的國家AI計算。
該研究的普查涵蓋了六大超大規模公共雲提供商:AWS、Microsoft、Google、阿里巴巴、華為和騰訊。雖然也有一些較小的提供商,但這六家佔據了全球公共雲市場的大部分份額,並且在各區域市場中也處於*地位。在普查進行時,訓練常見AI模型的最強大GPU是Nvidia於2023年推出的H100,之前的旗艦型號A100於2020年推出,V100更早於2017年推出。2023年,Nvidia引入了H800和A800以規避美國對中國的出口限制,但這些限制很快擴展到了這些新型號。數據收集的重點放在這五種與AI最相關的GPU類型上。
從普查數據庫中,該研究構建了一個國家級的數據集,以便進行地理分析。對於每個國家,其計算了其領土內的公共雲區域總數,還計算了至少支持一種GPU的區域(「支持GPU的區域」)的子集,以及支持特定GPU類型的區域子集。
爲了補充雲普查數據,研究進行了定性和半結構化的專家訪談。我們總共採訪了10位信息提供者,分別代表了兩位政策專家、三位超大規模公共雲提供商專家和五位在AI計算方面具有專業知識的研究專家。這些信息提供者通過我們自身的專業網絡採用滾雪球採樣方式招募。這些訪談的主要目標是改進並驗證普查方法,生成關於公共雲AI計算地理分佈的補充或替代信息,並幫助解釋觀察到的地理模式。
AI GPU在哪里?
圖1展示了普查中發現的公共雲區域的大致位置。表4則顯示了每個國家有多少個雲區域,以及這些區域中有多少提供GPU實例。從計算治理的角度來看,數據中最重要的特徵之一是,世界上絕大多數國家根本沒有公共雲區域。在擁有一個或多個雲區域的39個國家中,有30個國家的雲區域支持GPU。
另一個顯著特徵是,即使在那些擁有支持GPU的雲區域的國家內,區域的地理分佈也是高度極化的:中國和美國合計擁有的區域數(49個)幾乎與世界其他國家的總和(52個)相當。在這兩者中,中國的GPU支持區域總數略高(27個)於美國(22個)。
進一步的分析可以通過考察每個國家所提供的GPU實例類型來進行。最明顯的模式是,美國不僅在不同類型實例的可用比例上擁有世界上最新和最強大的GPU,在*數量上也是如此。美國是*一個提供2020年Nvidia A100 GPU的區域多於2017年V100 GPU的國家。美國還擁有多個提供2023年Nvidia H100 GPU的區域。中國的雲區域主要基於V100,少數區域提供A100實例。中國沒有任何區域提供H100。全球其他地區僅有15個國家提供A100,只有一個國家提供H100,其余的區域純粹基於V100。
此分析沒有考慮自定義加速芯片(如TPU),也沒有考慮不同區域內可用的GPU數量的差異。訪談信息提供者指出,不同區域內可用的同類型GPU數量可能在不同區域和提供商之間差異顯著。一位信息提供者指出:「超大規模雲服務提供商在計算或存儲方面幾乎給人一種無所不能的印象,似乎可以處理你帶來的任何問題。但這並不完全是現實。」在某些情況下,某一區域內可用的GPU數量可能非常有限,導致只有有限數量的客户可以在該區域運行GPU實例,或者只能在合理的時間內訓練較小規模的模型。
目前認為AWS和Microsoft擁有*規模的雲GPU集羣,但「在這方面,區域之間*不相同」。不過,GPU數量及其在提供商區域內的分佈被超大規模雲提供商視為高度機密的信息。我們的信息提供者中沒有人願意或能夠提供具體的數據,也無法指出如何公開獲取這些信息。但普遍認為,美國地區的GPU數量可能比世界其他擁有同類GPU的區域要大得多。中國的區域可能也會有更多的V100芯片,以彌補其相對較低的性能。我們的訪談表明,即使可以在此分析中納入每個區域的GPU數量,這可能也不會挑戰上述的主要模式,反而更可能強化這些模式。
為何集中在美國?
美國在先進的公共雲AI計算方面的*優勢相較於中國和其他國家,背后有什麼原因?一個顯而易見的解釋是美國政府的出口管制,禁止向中國出口A100和H100芯片。中國的雲提供商在2023年出口管制生效前,能夠進口一些A100芯片,但H100自產品發佈以來就一直受到出口管制。同樣,H800和A800芯片在推出后不久也被納入出口管制。性能遠不如這些芯片的V100是中國最常見的Nvidia GPU實例類型,因為它不受出口管制的限制。
然而,出口管制無法解釋為什麼除了中國之外的其他國家也主要部署了舊款GPU。幾種解釋是可能的。一個簡單的解釋是創新擴散的摩擦,指的是GPU在市場上擴散的過程。較新的GPU可能首先被安裝在美國,因為Nvidia總部位於美國,因此在美國的分銷網絡最為強大。隨着時間的推移,先進的GPU應該逐步擴散到相對較遠的市場。「我假設幾乎所有的GPU最初都進入了北美區域,但現在歐洲應該也有了相當規模的集羣,」一位信息提供者推測。
美國雲計算*的另一個潛在解釋來自於初始需求結構上的地理差異,這與規模經濟相結合,形成了一種「路徑依賴」,從而維持了AI計算集中在某些地理區域的狀況。一位信息提供者解釋道:「很少有云計算買家真正從事開創性的AI開發......所以沒有必要在各地分散能力......你需要幾個超級集羣,形成某些地點的計算能力臨界質量,沒必要在每個地方複製這種能力。」
最早集中進行大規模AI模型訓練的公司和研究人員出現在美國,因此雲提供商將最強大的訓練計算能力集中在那里。但即便全球其他地方對計算的需求在增加,這並不必然轉化為本地計算基礎設施的相應增長,因為開發人員通常可以將訓練任務發送到美國的雲區域,而不會遭遇顯著的性能損失。於是,美國最初的計算*地位得以持續。
信息提供者認為,用於部署AI的計算能力的情況有所不同。在許多AI用例中,例如語音助手,如果用户與服務器之間的距離過大,用户體驗可能會受到延迟的影響。數據傳輸成本也可能成為一個業務問題。因此,這類應用*部署在離用户更近的計算基礎設施上。這也解釋了為什麼性能不足以用於訓練的V100芯片——儘管速度較慢但仍適用於推理任務——在全球範圍內的分佈比更先進的芯片更加均勻。
然而,也有一些例外情況與美國擁有*進GPU的普遍模式不符。日本、英國和法國每個國家都有與V100支持區域數量相同的A100支持區域。這些國家都有顯著的本地AI開發活動。可能存在使本地開發者無法將數據發送到美國進行訓練的法規或政治障礙。一位信息提供者指出:「目前,有些公共部門或重要的歐洲參與者需要用無法離開歐洲的數據訓練GPT-4級別的模型......如果超大規模雲提供商沒有響應這一需求,我會感到驚訝。」
在這一背景下,信息提供者提到了有關「數字主權」、「數據主權」和「計算主權」的政策討論,這可能會創造對本地訓練計算需求的增加。荷蘭和愛爾蘭也擁有小而相對先進的GPU陣容。這可能與這些國家作為一些超大規模雲提供商基礎設施樞紐的戰略地位有關。值得注意的是,荷蘭是美國之外*一個擁有H100 GPU的雲區域的國家。
私有和政府計算的全球分佈
本研究的重點是公有云計算,這是一種重要但並非*的計算來源。在公有云計算中,我們的數據收集集中於Nvidia的GPU和六大*的超大規模雲服務提供商。
不同類型的大規模計算提供商的相對地位是否會發生變化,挑戰當前觀察到的計算地理格局?GPU集羣作為昂貴的資本品,需要高利用率才能實現合理的投資回報率,這解釋了為什麼大規模集羣主要被構建為共享基礎設施,不論是政府擁有的(如科學超級計算)還是近年來私有的(如公有云)。政府擁有的計算似乎正以「國家AI計算」計劃的形式在全球範圍內進行小規模迴歸。例如,美國的國家AI資源(NAIR)工作組旨在創建公有計算基礎設施以「民主化AI研究」(。然而,許多情況下政府的投資規模似乎不足以真正挑戰超大規模雲服務提供商的主導地位。許多最近的政府努力也是在與這些超大規模雲服務商的合作下進行的,實際上這些項目依賴於私有基礎設施。
歐洲高性能計算聯合體的新LUMI超級計算機提供了一個反例。LUMI位於芬蘭Kajaani,由歐盟成員國政府合作建立,由Nvidia的競爭對手AMD設計的11,912個GPU組成集羣。其規模可能會成為AI開發基礎設施方面私有「公有」雲計算基礎設施的一個嚴肅替代方案。鑑於它位於歐盟,它並未挑戰圖2中顯示的南北計算鴻溝。然而,它可能有助於打破美中兩國作為*AI超級大國的兩極形象。
新的私有計算集羣也在增長。Google的TPU可能佔據了相當大比例的AI計算。AWS和微軟都計劃生產自己的芯片。Meta宣佈將大規模投資建設私有計算能力:首席執行官馬克·扎克伯格聲稱將投資34萬顆Nvidia H100和A100。2023年,微軟聲稱花費數億美元用於為OpenAI的ChatGPT聊天機器人提供動力的集羣。大型科技公司可能僅憑其內部和合作夥伴的需求就能實現大規模集羣的高利用率。但最初部署為私有的集羣在內部需求減少后,可能會轉變為共享的雲基礎設施。這模糊了私有和公有(如公共住房)雲計算能力之間的區別。
一道AI計算的鴻溝
通過計算來治理AI是一個有力的理念,因為計算由大型、可觀察的物質基礎設施組成。這些基礎設施必須物理地位於某個地方,因此容易受到領土管轄權的影響,而領土管轄權是所有國家——無論大小——*執行力的管轄形式。然而研究顯示,計算基礎設施並未均勻分佈在全球各地,它們的地理分佈很大程度上決定了不同國家將計算作為AI干預點的可能性。
研究重現了兩個AI超級大國陷入計算「軍備競賽」的熟悉觀點,其中,美國在芯片質量方面佔據優勢,而中國試圖通過數量來彌補差距。美國對先進GPU的出口限制似乎起到了作用,因為沒有任何公共雲提供商在中國提供2023年的H100芯片,也沒有提供為規避這些限制而開發的H800或A800。同樣地,俄羅斯和伊朗這兩個受西方制裁的國家在我們的樣本中也沒有任何公共雲AI計算設施。
然而,除了地緣政治大國競爭的觀點之外,研究還提出了與基於計算的AI治理相關的其他概念類別。除了美國和中國之外,還有另外15個國家也擁有對AI發展最為重要的GPU,即A100和H100。這些*梯隊的國家,除了印度之外,均位於所謂的「全球北方」。類比而言,將它們稱為「計算北方」。這些計算北方國家可以利用其領土管轄權來干預AI發展,特別是在模型被發送到其本地公共雲區域進行訓練時。例如,它們可以要求算法和數據集在訓練開始之前通過審計並獲得符合本地規則的認證,從而影響進入全球市場的AI系統的類型。
第二梯隊包括13個國家,它們的計算能力更適合AI系統的部署而非開發。除了瑞士之外,這些國家都位於全球南方,因此將它們稱為「計算南方」。例如,拉丁美洲共有五個GPU支持的雲區域,但它們沒有一個配備了比2017年發佈的V100更強大的GPU。這些國家能夠利用其對計算的領土管轄權來把關哪些AI系統可以在本地部署,但對於AI系統開發的影響較小。
除了「計算北方」和「計算南方」,還有一個「計算沙漠」,用此術語指代世界上所有不具備任何公共雲AI計算(無論是用於訓練還是部署)的國家。對於這些國家而言,轉向基於雲的AI服務意味着依賴於在外國司法管轄區內開發和部署的基礎設施。計算沙漠包括一些富裕國家,但也包括國際貨幣基金組織(IMF)分類的所有中低收入國家和低收入國家。計算沙漠國家的影響可能因其富裕程度而有所不同。沙漠中的富裕國家可能能夠利用其其他優勢——例如對計算北方國家的外交影響力以及足以建設政府擁有的計算能力的財富——來抵消其缺乏本地公共雲AI計算的劣勢,但計算沙漠中的貧窮國家幾乎沒有前景可以通過計算治理來影響AI。
類似於研究人員觀察到學術界和工業界之間存在「計算鴻溝」,研究也觀察到了全球計算鴻溝,公共雲AI計算的地理分佈似乎在重現全球不平等的熟悉模式。從1990年代中期開始,有關數字化的討論提出,成功進入新的全球「知識經濟」將基於知識和創造力等非物質資產,而不再依賴於工業經濟時代所需的物質資產和資源。這意味着發展中國家可以跳過昂貴的基礎設施投資,直接進入基於知識的經濟模式。然而,今天關於AI的討論再次強調了芯片製造廠、數據中心和電力網絡等物質基礎設施對於國家競爭力的關鍵作用。如果計算成為一個關鍵的治理節點,那麼這些物質基礎設施可能也會被證明對於保持獨立的監管權力至關重要(Lehdonvirta 2023)。因此,一個國家的計算能力在某種程度上也等同於其政治權力。
這種情況會發生變化嗎?如果高端AI計算集中在美國和「計算北方」只是由於創新擴散過程中的摩擦所致,那麼隨着時間的推移,全球可能會逐漸充滿計算能力,縮小這種差距。Nvidia的競爭對手,如AMD和英特爾,正在芯片性能方面追趕。中國廠商也在開發AI處理芯片,並且由於美國的出口控制,中國國內對其需求巨大,再加上政府的支持,這種差距可能會逐步
但是,如果觀察到的地理模式更多是由先行者優勢和規模經濟導致的路徑依賴解釋的,那麼地理集中、區域專業化以及國際勞動分工可能將成為計算生產的持久特徵,正如在許多其他行業中一樣。
寫在最后
誰擁有了最多的GPU?這個問題的答案似乎早已呼之欲出,但在這一問題的背后,本質上是算力的不均勻分佈。而如何改善算力的不平衡,讓處於計算荒漠的更多人享受到AI所帶來的便利,恐怕短時間內是很難解決的了。
【本文由投資界合作伙伴微信公眾號:半導體行業觀察授權發佈,本平臺僅提供信息存儲服務。】如有任何疑問,請聯繫(editor@zero2ipo.com.cn)投資界處理。