繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

AWS的芯片策略

2024-04-13 13:22

曾經有一段時間——似乎並不是很久以前——數據中心芯片市場是一個資金雄厚但相對簡單的市場,來自英特爾、AMD 和 Arm 的 CPU 試圖強行進入,而 GPU 則主要來自 Nvidia AMD 和英特爾的一些公司希望強行進入。還有許多人工智能初創公司並沒有真正在數據中心銷售太多。

近年來,情況發生了巨大變化。

仍然有英特爾、AMD、Nvidia 和 Arm,但在芯片方面也有更多選擇。正在生成和分析大量且不斷增長的數據,而最近出現的生成式人工智能和大型語言模型正在催生無數希望站穩腳跟的芯片初創公司。

然后還有亞馬遜網絡服務、微軟及其即將推出的 Maia 100和谷歌雲及其張量處理單元等超大規模企業,它們正在製造自己的國產處理器。

市場上有大量的芯片選擇,雲基礎設施提供商將在所有這些如何整合在一起方面發揮重要作用。目前,大約70% 的人工智能工作負載都在雲端,並且隨着企業採用該技術並擴展其工作負載,這一數字有望增長。

對於AWS來説,它有自己的Trainium(顯然是爲了訓練人工智能工作負載)和Inferentia(顯然是爲了人工智能推理) ——更不用説它的Graviton CPU和Nitro DPU了,這一切都要歸功於它2015年收購了以色列芯片設計公司Annapurna。AWS 也擁有大量 Nvidia GPU,它們是人工智能計算的基石。但人工智能的興起——以及最近新興的生成式人工智能技術的加速創新和採用——正在創建一個流體處理器環境,該公司和其他雲提供商將不得不駕馭這個環境。

Amazon EC2 產品管理總監 Chetan Kapoor 表示,AWS 目前已準備好使用 Nvidia GPU、Trainium 和 Inferentia,但未來如何發展還需要拭目以待。

「我們正處於瞭解如何解決這一問題的早期階段,」卡普爾告訴The Next Platform。「我們所知道的是,基於您在這個領域看到的快速增長,我們還有很大的空間繼續擴大基於 Nvidia 的產品的足跡,同時,我們將繼續擴大我們的 Trainium 和 Inferentia 容量。現在判斷這個市場將如何發展還為時過早。但這不是我們所認為的零和遊戲。由於這種指數級增長,我們的 Nvidia GPU 羣將繼續出現顯着增長,但與此同時,我們將繼續尋找機會方式將 Trainium 和 Inferentia 引入外部和內部使用。」

與競爭對手一樣,AWS 全力發展人工智能,但它在內部能做什麼以及在市場上投資了什麼。AWS 上月底向人工智能公司 Anthropic又投資了 27.5 億美元,使其總投資達到 40 億美元。幾周前,這家雲提供商表示 Anthropic 的 Claude 3 系列模型正在 Amazon Bedrock AI 託管服務上運行。這與微軟與 OpenAI(投資超過 100 億美元)以及谷歌與 Anthropic(投資超過 20 億美元)的合作伙伴關係相呼應。

爲了運行這一切,AWS 堅持使用現有的 Nvidia 和自己的芯片,但實質上負責 EC2 硬件加速業務的 Kapoor 表示,該公司「將繼續與其他提供商保持合作」如果英特爾或 AMD 等其他供應商擁有真正引人注目的產品,我們認為可以補充我們基於 Nvidia 的解決方案,我非常樂意在該市場與他們合作。」

AWS 在最近的 GTC 2024 展會上加大了對 Nvidia 的攻擊力度,表示——正如微軟 Azure、谷歌雲和 Oracle 雲基礎設施所做的那樣——正在採用加速器製造商的新型 Blackwell GPU,包括大型GB200 Grace Blackwell 超級芯片,它有兩個 B200 GPU通過 600 GB/秒 NVLink 互連連接到單個 Grace CPU。

其他人工智能芯片是否能夠強行進入 AWS 環境尚不清楚。Groq、Mythic 和SambaNova Systems等公司正在為人工智能工作負載組裝處理器,但卡普爾表示,這不僅僅是加速器本身。OpenAI 首席執行官 Sam Altman 提出了該公司設計自己的人工智能訓練和推理芯片的想法,以補充緊張的市場,該市場對 Nvidia GPU 的需求猛增,以滿足人工智能工作負載的需求。

「製造芯片真的很難,」他説。「構建服務器、管理和部署數以萬計(如果不是數十萬)的加速器就更加困難。但更具挑戰性的是建立一個利用這種能力的開發者生態系統。根據我們的經驗,這不僅僅是硅的問題。硅是產品的一部分。但是,我們如何將其配置為計算平臺呢?我們如何管理和擴展它?這很重要,但最重要的是什麼?該解決方案的易用性如何?您的產品有哪些可用的開發者生態系統?基本上,客户能多快完成工作?」

生成式人工智能的加速採用並不能讓組織花費數月時間學習和使用新的硬件架構。他們使用的需要是一個既易於使用又具有成本效益的整體架構。

卡普爾説:「它必須有一個圍繞它的開發者社區,才能在該領域產生吸引力。」 「如果有一家初創公司能夠實現這一壯舉,那就太好了,他們將會成功。但重要的是要真正從這個角度來看它需要高性能、需要便宜、需要廣泛可用並且非常易於使用,即使對於大公司來説,真正做到這一點也非常非常困難。」

組織面臨着採用人工智能以保持與競爭對手的競爭力的巨大壓力。對於公司來説,在考慮他們使用的基礎設施時,運行這些人工智能工作負載通常取決於性能與成本。

「我們將看到這種趨勢,其中一些客户只關注上市時間,而不太關注確保優化支出,」他説。「他們往往更喜歡基於 Nvidia 的解決方案,因為這使他們能夠儘快進入市場。另一方面,我們已經開始看到這種趨勢,其中一些客户會考慮這一成本並説,「好吧,我沒有預算來支持這一點,」他們會尋找替代解決方案,為他們提供所需的性能,但同時為他們提供一條出路,使他們訓練和部署這些模型所需的總成本節省 30% 或 40%。這就是我們或其他芯片合作伙伴提供的一些替代解決方案發揮作用的地方。」

也就是説,對 Nvidia 產品的需求將持續存在。卡普爾表示,許多新的基礎模型都是在供應商的 GPU 上構建的,因為研究和科學界在使用 Nvidia 硬件和軟件構建和訓練人工智能模型方面擁有豐富的經驗。此外,Nvidia 將繼續擴大系統可提供的原始性能方面的優勢。他表示,這家 GPU 製造商「不僅非常非常擅長構建芯片,而且還擅長構建這些系統,而且他們在優化性能方面也非常出色,以確保他們的客户能夠從這些非常非常昂貴的加速器中獲得最大收益」。

因此,超大規模企業必須密切關注組織告訴他們的信息,因為雖然目前約 70% 的人工智能工作負載都在雲端,但這一數字在未來幾年將會增長。AWS 和其他公司在 Nvidia 的 A100 或H100 芯片上運行的系統已經非常複雜且規模化,隨着 Blackwell 的推出,這種情況只會增加,Blackwell 需要採用液體冷卻等技術的機架集成產品,甚至更高的密度。

「設計、構建和實際部署此類機器需要更多持久的複雜性,因此我們預計之前能夠在本地部署系統的客户將會遇到很多挑戰,」Kapoor説。「他們可能沒有液體冷卻基礎設施。他們可能沒有提供足夠電力的機架位置,他們將傾向於雲,因為我們將為他們完成所有這些艱苦的工作,並且這些資源將僅通過 API 供他們使用和啟動。同樣的事情也適用於安全方面。今天,在讓我們的客户相信他們的知識產權(通常是模型參數、權重和偏差)方面,我們擁有非常非常強大的姿態,他們可以完全訪問他們的知識產權。」

他們很快還將擁有人工智能超級計算機來處理這些人工智能和機器學習工作負載。AWS 正在與 Nvidia 合作開展「Project Ceiba」,以構建這樣一個系統,該系統現在將包括 Blackwell GPU 和 NVLink Switch 4 互連,正如我們所概述的那樣。此外,據報道,微軟和 OpenAI 正在規劃「星際之門」超級計算機,或者正如我們所指出的,可能是組成超級計算機的多個數據中心。

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。