熱門資訊> 正文
2024-09-25 09:27
如果您希望可以時常見面,歡迎標星 收藏哦~
來源:內容來自半導體行業觀察綜合,謝謝。
英特爾今天正式推出了用於 AI 工作負載的 Gaudi 3 加速器。新處理器的速度比 Nvidia 廣受歡迎的 H100 和 H200 GPU(用於 AI 和 HPC)要慢,因此英特爾將其 Gaudi 3 的成功押注於其較低的價格和較低的總擁有成本 (TCO)。
英特爾的 Gaudi 3 處理器使用兩個芯片組,包含 64 個張量處理器核心(TPC,帶有 FP32 累加器的 256x256 MAC 結構)、八個矩陣乘法引擎(MME,256 位寬矢量處理器)和 96MB 片上 SRAM 緩存,帶寬為 19.2 TB/s。此外,Gaudi 3 集成了 24 個 200 GbE 網絡接口和 14 個媒體引擎,后者能夠處理 H.265、H.264、JPEG 和 VP9,以支持視覺處理。該處理器配備 8 個內存堆棧中的 128GB HBM2E 內存,可提供 3.67 TB/s 的巨大帶寬。
與擁有 24 個 TPC、兩個 MME 和 96GB HBM2E 內存的Gaudi 2相比 ,英特爾的 Gaudi 3 有了巨大的改進。不過,英特爾似乎簡化了 TPC 和 MME,因為 Gaudi 3 處理器僅支持 FP8 矩陣運算以及 BFloat16 矩陣和矢量運算(即不再支持 FP32、TF32 和 FP16)。
在性能方面,英特爾表示,Gaudi 3 可以提供高達 1856 BF16/FP8 矩陣 TFLOPS 以及高達 28.7 BF16 矢量 TFLOPS,TDP 約為 600W。與 Nvidia 的 H100 相比,至少在紙面上,Gaudi 3 的 BF16 矩陣性能略低(1,856 vs 1,979 TFLOPS),FP8 矩陣性能低兩倍(1,856 vs 3,958 TFLOPS),BF16 矢量性能明顯較低(28.7 vs 1,979 TFLOPS)。
比原始規格更重要的是 Gaudi 3 的實際性能。它需要與 AMD 的 Instinct MI300 系列以及 Nvidia 的 H100 和 B100/B200 處理器競爭。這還有待觀察,因為它在很大程度上取決於軟件和其他因素。目前,英特爾展示了一些幻燈片,聲稱 Gaudi 3 與 Nvidia 的 H100 相比具有顯着的性價比優勢。
今年早些時候,英特爾表示基於八個 Gaudi 3 處理器的加速器套件 售價爲 125,000 美元,這意味着每個處理器售價約為 15,625 美元。相比之下,Nvidia H100 卡目前的售價爲 30,678 美元,因此英特爾確實計劃在價格上比其競爭對手更具優勢。然而,由於基於 Blackwell 的 B100/B200 GPU 可能提供巨大的性能優勢,這家藍色公司是否能夠保持相對於競爭對手的優勢還有待觀察。
英特爾執行副總裁兼數據中心和人工智能事業部總經理 Justin Hotard 表示:「對人工智能的需求正在推動數據中心發生巨大轉變,業界要求在硬件、軟件和開發工具方面做出選擇。隨着我們推出配備 P 核的 Xeon 6 和 Gaudi 3 AI 加速器,英特爾正在建立一個開放的生態系統,使我們的客户能夠以更高的性能、效率和安全性實施所有工作負載。」
英特爾的 Gaudi 3 AI 加速器將通過 IBM Cloud 和英特爾 Tiber 開發者雲提供。此外,基於英特爾 Xeon 6 和 Gaudi 3 的系統將於第四季度從戴爾、HPE 和超微全面上市,戴爾和超微的系統將於 10 月出貨,超微的設備將於 12 月出貨。
向數據中心推出「Granite Rapids」 Xeon 6
英特爾談論其「Granite Rapids」 Xeon 6 處理器已經很長時間了,人們很容易忘記它們尚未正式發佈。
但今天,「Granite Rapids」服務器 CPU 系列的高端產品首次亮相,而這比 AMD 普遍預計發佈其「Turin」第五代 Epyc 處理器早了幾個星期。雖然我們認為 AMD 將繼續擴大市場份額,但 Granite Rapids 加上今年 6 月發佈的「Sierra Forest」Xeon 6 芯片的組合,即使不能扭轉趨勢,也將幫助英特爾減緩數據中心 CPU 市場份額的損失。
老實説,考慮到 AMD 與臺灣半導體制造公司合作而仍然在芯片製造工藝上保持領先地位,以及英特爾自身在代工業務方面遇到的困境,這是最好的結果了。
正如我們多次指出的那樣,有設計勝利和供應勝利,雖然前幾代 Xeon 顯然只是供應勝利,但可以公平地説,Sierra Forest 和 Granite Rapids 都開始獲得一些設計勝利,即使英特爾的銷售仍然主要歸功於供應勝利。
Xeon 6 芯片的 E 核和 P 核變體的芯片封裝和架構(在英特爾術語中是「效率」和「性能」的縮寫)早在 Hot Chips 2023 上就已披露。我們今年夏天對 Sierra Forest 的深入研究,英特爾為服務器 CPU 刀戰帶來了大分叉,填補了 Xeon 6 技術和戰略中的許多空白。因此,我們不會大驚小怪,我們將在明年年初直接進入 Granite Rapids 陣容和未來 Xeon 6 芯片的路線圖。
當然,在這篇最初的報道之后,我們將對 Granite Rapids 進行架構深入研究。我們將回顧英特爾所做的競爭分析,將 Granite Rapids 與2022 年 11 月推出的當前第四代「Genoa」Epyc 9004 芯片、2023 年 6 月推出的「Bergamo」Epyc 97X4 芯片(其核心數量與 Sierra Forest 一樣增加)以及即將推出的「Turin」Epycs 進行對比。
Granite Rapids 處理器基於「Redwood Cove」P 核心,是 Sapphire Rapids 和 Emerald Rapids 中使用的「Golden Cove」核心的更新版。與 Golden Cove 核心相比,Redwood Cove 核心在整數工作負載上每時鍾指令數 (IPC) 增加了 5% 到 7%,雖然只是名義上的增加,但仍然是增加。我們取中間值 6% 的 IPC 來與前幾代 Xeon 進行比較。我們被警告不要過分關注這個常用指標。(順便説一句,我們並不認為我們會關注這個指標,但它確實有用。)
「我最近確實做了一個小演講,説人們過於關注 IPC,」英特爾高級研究員兼 Xeon 6 產品線首席架構師 Ronak Singhal 告訴The Next Platform。「具體來説,如果我的內部團隊來找我,為我提供一個 IPC 為 5% 的核心和一個 IPC 為 15% 的核心,哪個對 Xeon 更有利?答案是這取決於其他參數,特別是功率。如果 5% IPC 選項使我多花費 0% 的功率,但 15% IPC 選項使我多花費 30% 的功率,那麼在功率受限的世界中,這兩個選項平均而言大致相同,而且其中一個可能不那麼複雜。所以,雖然每個人都喜歡討論 IPC,但我們真正需要談論的是功率受限下的性能。我之所以這麼説,是因為 Granite Rapids 的核心在很多方面更注重降低功率,而不是提高 IPC。」
很合理,而且很有道理。從這個角度來看。如果你使用兩個 Emerald Rapids CPU(即四個芯片),並將它們保持在英特爾 7(實際上是 10 納米)上,那麼你將創建一個 112 覈計算綜合體,其重量將超過 700 瓦,並且插槽尺寸將是原來的兩倍。如果你使用相同的兩個 Emerald Rapids CPU(同樣是四個芯片),並將它們縮小到英特爾 3(有人説類似於 5 納米工藝,其他人説更像 3 納米工藝),你可以在大致相同的功率下將性能提高一倍,這僅僅是由於工藝縮小,但它可能再次接近 700 瓦,這是原始芯片的 2 倍。
然而,對於 Granite Rapids,英特爾將核心數量從之前兩款 P 核處理器的 56 個核心提升至 120 個,增加了 2.3 倍,而頂部部分的功率僅增加至 500 瓦,僅增加了 1.4 倍。
當然,情況要複雜一些,因為 Granite Rapids 和 Sierra Forrest 在封裝中的多個芯片上混合使用了英特爾 3 和英特爾 7 工藝。在 Sapphire Rapids 和 Emerald Rapids 中,英特爾將 I/O 和內存控制器與計算核心放在同一個芯片上。但在 Sierra Forest 和 Granite Rapids 中,I/O 和內存芯片與計算核心分離,並在不同的工藝中實現,如下所示:
Xeon 6 系列中有四種不同的 P 覈計算芯片和 I/O 芯片組合,其中一種——頂級超核心數 (UCC) 變體——於今天推出。
Granite Rapids Xeon 6 變體具有較少的計算塊數量(兩個用於極端核心數 (XCC) 變體或一個用於高核心數 (HCC) 變體),以及一個具有較小計算塊以及兩個 I/O 芯片的變體,稱為低核心數 (LCC),將於 2025 年的某個時候問世。
核心芯片封裝如下:
今天發佈的 Granite Rapids UCC 套件被稱為 Xeon 6 6900P,它包括最高運行速度為 6.4 GHz 的 DDR5 內存和可將其推高至 8.8 GHz 的多路複用列 (MRDIMM) 內存。得益於兩個 I/O 芯片,插槽可以跨 UCC、XCC、HCC 和 LCC 進行配置,並且允許任何這些芯片直接插入任何「Birch Stream」平臺,該平臺還支持 Sierra Forest 及其后續產品「Clearwater Forest」,該產品將於明年某個時候採用英特爾 18A(1.8 納米)工藝推出。
Granite Rapids 套件支持最多 96 條 PCI-Express 5.0 通道,還可運行 CXL 2.0 一致性內存協議。該套件還具有高達 504 MB 的 L3 緩存,與英特爾通常的緩存相比,這非常大。
據我們所知,今天發佈的 Granite Rapids 芯片沒有支持四路和八路服務器的變體,這很遺憾。Sierra Forest Xeon 6 也是如此(考慮到它的用例,我們預計會支持),2023 年 12 月推出的上一代第五代「Emerald Rapids」Xeon SP v5 芯片也是如此,后者是一條更廣泛的 Xeon SP 產品線,並且可能具有擴展的 NUMA 集羣。您必須從 2023 年 1 月開始使用「Sapphire Rapids」Xeon SP v4 芯片才能獲得英特爾支持四路和八路 NUMA 的 CPU。
順便説一句,由於有六個 UltraPath Interconnect NUMA 鏈接以 24 GT/秒的速度運行,因此英特爾及其 OEM 和 ODM 合作伙伴沒有技術原因不能使用這些 Granite Rapids 芯片製造具有兩個以上插槽的 NUMA 機器。這肯定是足夠的動力和足夠的鏈接。
英特爾尚未透露 Granite Rapids 計算模塊的內核數量,但根據您認為英特爾的英特爾 3 工藝產量,您可以合理地猜測 48 個內核或 45 個內核。對於具有 128 個內核的 UCC 變體,您必須在這些芯片上產生奇數才能使其發揮作用。(我們討厭不均勻分佈的情況,甚至更糟的是,不除以 2。)每個計算芯片都有四個 DDR5 內存控制器,總共十二個,就像當今大多數高端 CPU 一樣,使用 MRDIMM 內存,Granite Rapids 上的有效帶寬比 Emerald Rapids 上的有效帶寬高 2.3 倍。
下面是一張很好的摘要圖表,顯示了 Xeon 6 P 核和 E 核變體之間的差異:
儘管 Xeon 6 處理器的 P 核和 E 核版本使用相同的 I/O 芯片,但顯然並非所有功能都在 E 核版本中激活。您會注意到,對於單插槽設計,P 核 6700 系列芯片不知何故提供了 136 個 PCI-Express 5.0 通道。E 核芯片上的虛擬內存尋址要低得多,這是有道理的,因為它們只會在具有一個或兩個插槽的機器中使用,而不是多達八個或更多插槽。E 核具有不同的矢量數學單元,只有 P 核具有 AMX 矩陣單元。圖表顯示即將推出支持四個和八個插槽的 P 核 Xeon 6 芯片。
這讓我們看到了 Granite Rapids 的 SKU 堆棧,它相當適中,只有 5 種不同的變體。看一看:
辛加爾在發佈會前的簡報中表示,谷歌和亞馬遜網絡服務公司正在為其產品系列獲取定製的 Xeon 6 處理器,我們想象其他公司也是如此。
爲了便於比較,下面是 Sierra Forest Xeon 6 SKU 的表格,同樣只有 7 種不同型號:
以下是去年 Emerald Rapids SKU 的詳細表格:
與往常一樣,我們的相對性能數據是根據任何特定型號的 Xeon 與 2009 年的「Nehalem」Xeon E5540 處理器的性能來計算的,后者擁有四個內核,運行速度為 2.53 GHz,8 MB L3 緩存,散熱能力為 80 瓦。爲了計算相對性能,我們將每個型號的內核數量乘以時鍾速度,再乘以每一代 IPC 的累計增量。
考慮到我們為此目的而精心跟蹤的累積 IPC,Redwood Cove 核心的整數性能比 15 年前的 Nehalem 核心高出 2.42 倍。這是相當不錯的架構增強。與 Nehalem 相比,Granite Rapids 的核心數量增加了 32 倍,但所有這些核心的時鍾速度都下降了 21%,而功耗卻增加了 6.25 倍。
這就是芯片業務。
您會注意到上面的 Granite Rapids 表中還有一件重要的事情:價格以粗體紅色斜體顯示。這意味着英特爾沒有公佈 Granite Rapids Xeon 6 芯片的價格。我們顯然不贊成這種做法。價格表提供了一個上限,人們可以在此基礎上進行談判,如果數量足夠,他們肯定會這樣做。
大自然厭惡真空,我們的孩子也是如此,因此我們根據以往的 Xeon SP 定價,盡最大努力估算了 Granite Rapids 芯片的價格。我們認為這些是英特爾在 Xeon 系列中推出的最昂貴的數據中心 CPU。(Itanium 不算,它不一樣。)如果您知道價格是多少,請分享,我們也會分享。
參考鏈接
https://www.tomshardware.com/tech-industry/artificial-intelligence/intel-launches-gaudi-3-accelerator-for-ai-slower-than-h100-but-also-cheaper
https://www.nextplatform.com/2024/09/24/intel-shoots-granite-rapids-xeon-6-into-the-datacenter/