繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

Nvidia GPU 路線圖證實:摩爾定律已死

2025-04-02 12:34

正如黃仁勛喜歡説的那樣,摩爾定律已死——在本月的英偉達 GTC 大會上,這位 GPU 巨頭的首席執行官透露了計算擴展法則究竟有多麼不再適用。

站在舞臺上,黃仁勛不僅展示了芯片設計公司的下一代 Blackwell Ultra 處理器,還透露了關於未來兩代加速計算平臺的驚人細節,包括一個配備 576 個 GPU 的 600kW 機架規模系統。我們還了解到,一個計劃於 2028 年推出的 GPU 家族將以理查德·費曼命名。你肯定是在開玩笑吧!

芯片製造商偶爾會透露他們的路線圖,這並不罕見,但我們通常不會一次性獲得這麼多信息。這是因為英偉達遇到了不止一個,而是多個障礙。更糟糕的是,除了投入資金解決問題之外,這些問題大多不在英偉達的控制範圍內。

對於那些關注這一領域的人來説,這些挑戰並不令人意外。分佈式計算一直是一場瓶頸打地鼠的遊戲,而 AI 可能正是終極的地鼠狩獵。

從這里開始,所有的一切都在向上和向外擴展

這些挑戰中最明顯的一個圍繞着計算擴展。

近年來,工藝技術的進步幾乎停滯不前。雖然仍有一些調整空間,但它們變得越來越難以推動。

面對這些限制,英偉達的策略很簡單:儘可能擴大每個計算節點中的硅含量。如今,英偉達最密集的系統,或實際上是機架,通過其高速 1.8TB/s NVLink 結構將 72 個 GPU 集成到一個計算域中。然后使用 InfiniBand 或以太網將八個或更多這樣的機架連接在一起,以實現所需的計算和內存容量。

在 GTC 大會上,英偉達透露了將這一數字提升至每個機架 144 個,最終達到 576 個 GPU 的計劃。然而,擴展不僅限於機架;它也發生在芯片封裝上。

這一點在一年前推出的英偉達 Blackwell 加速器中變得顯而易見。這些芯片的性能提升是 Hopper 的 5 倍,這聽起來很棒,直到你意識到它需要兩倍的芯片數量、新的 4 位數據類型和多消耗 500 瓦的功率才能實現。

實際上,標準化到 FP16 時,英偉達規格最高的 Blackwell 芯片的速度僅比 GH100 快約 1.25 倍,達到 1,250 密集 teraFLOPS,而 GH100 為 989——只是它們恰好有兩個。

到 2027 年,英偉達 CEO 黃仁勛預計隨着 Rubin Ultra NVL576 的推出,機架功率將飆升至 600kW。

我們尚不知道英偉達計劃為其下一代芯片使用什麼工藝技術,但我們知道 Rubin Ultra 將繼續這一趨勢,從兩個光罩限制的芯片跳到四個。即使從 TSMC 2nm 中獲得大約 20% 的效率提升,黃仁勛預計這仍將是一個非常熱的封裝。

不僅僅是計算,還有內存。眼尖的讀者可能已經注意到 Rubin 到 Rubin Ultra 之間容量和帶寬的顯著提升——每個封裝從 288GB 增加到 1TB。大約一半來自更快、更高容量的內存模塊,而另一半來自將用於內存的硅量從 Blackwell 和 Rubin 的八個模塊增加到 Rubin Ultra 的 16 個模塊。

更高的容量意味着英偉達可以在單個封裝中塞入更多的模型參數,大約 2 萬億個 FP4 參數,或者每個「GPU」5000 億個,因為他們現在計算的是單個芯片而不是插槽。HBM4e 也有望有效地將內存帶寬翻倍,相比 HBM3e。帶寬預計將從今天每個 Blackwell 芯片約 4TB/s 躍升至 Rubin Ultra 的約 8TB/s。

不幸的是,除非工藝技術有重大突破,否則未來英偉達 GPU 封裝可能會塞入更多的硅。

好消息是,工藝進步並不是擴展計算或內存的唯一途徑。一般來説,從 16 位降到 8 位精度可以有效地將吞吐量翻倍,同時將給定模型的內存需求減半。問題是英偉達在減少位數以提升性能增益方面已經幾乎沒有空間了。從 Hopper 到 Blackwell,英偉達減少了四位,翻倍了硅含量,並聲稱獲得了 5 倍的浮點增益。

但在低於四位精度時,大語言模型推理變得相當困難,困惑度得分迅速上升。也就是説,圍繞超低精度量化(低至 1.58 位)保持準確性的一些有趣研究正在進行中。

減少精度並不是獲得 FLOPS 的唯一方法。你還可以減少分配給 AI 工作負載不需要的高精度數據類型的芯片面積。

我們在 Blackwell Ultra 上看到了這一點。英偉達加速計算業務部門副總裁 Ian Buck 在接受採訪時告訴我們,他們實際上削弱了芯片的雙精度(FP64)張量核心性能,以換取 50% 更多的 4 位 FLOPS。

這是否意味着 FP64 在英偉達即將消失還有待觀察,但如果你真的關心雙精度性能,AMD 的 GPU 和 APU 可能應該是你的首選。

無論如何,英偉達的前進道路是明確的:其計算平臺只會變得更大、更密集、更熱和更耗電。正如黃仁勛在上周的新聞發佈會上所説的那樣,機架的實際限制是你能提供多少電力。

「一個數據中心現在是 250 兆瓦。這是每個機架的限制。我認為其余的只是細節,」黃仁勛説。「如果你説一個數據中心是一個千兆瓦,我會説每個機架一個千兆瓦聽起來是個不錯的限制。」

無法逃避的電力問題

顯然,600kW 的機架對數據中心運營商來説是一個巨大的難題。

需要明確的是,冷卻兆瓦級超密集計算並不是一個新問題。Cray、Eviden 和聯想的人們多年來已經解決了這個問題。變化的是,我們現在討論的不是一年中少數幾個精品計算集羣,而是幾十個集羣,其中一些大到足以取代 Top500 中最強大的超級計算機,如果將 200,000 個 Hopper GPU 用於 Linpack 可以賺錢的話。

在這些規模下,高度專業化、低產量的熱管理和電力傳輸系統根本無法滿足需求。不幸的是,數據中心供應商——也就是那些銷售讓這些價值數百萬美元的 NVL72 機架正常工作的不那麼性感的零部件的人——現在才趕上需求。

我們懷疑這就是為什麼到目前為止宣佈的許多 Blackwell 部署都是用於空氣冷卻的 HGX B200,而不是黃仁勛一直在宣傳的 NVL72。這些八 GPU HGX 系統可以在許多現有的 H100 環境中部署。英偉達多年來一直在做 30-40kW 的機架,因此跳到 60kW 並不是那麼大的飛躍,即使是這樣,降到每個機架兩到三臺服務器仍然是一個選擇。

這就是黃仁勛一直在談論的「AI 工廠」的用武之地

NVL72 是一種受超大規模數據中心啓發的機架規模設計,具有直流母線、電源滑軌和前置網絡。在 120kW 的液冷計算下,在現有設施中部署多個這樣的系統很快就會變得困難。而且一旦英偉達的 600kW 怪物機架在 2027 年底亮相,這隻會變得更加困難。

這就是黃仁勛一直在談論的「AI 工廠」的用武之地——與 Schneider Electric 等合作伙伴合作設計的專用數據中心,以應對 AI 的電力和熱量需求。

令人驚訝的是,在詳細介紹其未來三年的 GPU 路線圖一周后,施耐德宣佈在美國進行 7 億美元的擴張,以提高支持這些系統所需的所有電力和冷卻設備的生產。

當然,擁有為這些超密集系統供電和冷卻所需的基礎設施並不是唯一的問題。首先將電力輸送到數據中心也是一個問題,而這再次大多不在英偉達的控制範圍內。

每當 Meta、Oracle、Microsoft 或其他公司宣佈另一個 AI 數據中心時,通常會伴隨着一份豐厚的電力購買協議。Meta 在海灣地區的新數據中心是與一個 2.2GW 的燃氣發電廠一起宣佈的——可持續性和碳中和承諾就這樣被拋諸腦后。

儘管我們希望核能能夠捲土重來,但當即使是最樂觀的預測也將部署時間定在 2030 年代時,很難認真對待小型模塊化反應堆。

跟隨領導者

需要明確的是,這些障礙並不是英偉達獨有的。AMD、Intel 和其他每一個爭奪英偉達市場份額的雲提供商和芯片設計公司都將很快面臨這些相同的挑戰。英偉達只是恰好是第一個遇到這些挑戰的公司之一。

雖然這肯定有其不利之處,但它也使英偉達在塑造未來數據中心電力和熱量設計方向方面處於一個相對獨特的位置。

正如我們之前提到的,黃仁勛願意透露其未來三代 GPU 技術並暗示其第四代的原因是爲了讓其基礎設施合作伙伴在它們最終到來時做好準備。

「我之所以向世界傳達英偉達未來三、四年的路線圖,是因為現在其他人都可以計劃了,」黃仁勛説。

另一方面,這些努力也為競爭對手芯片製造商掃清了道路。如果英偉達設計了一個 120kW,或者現在是 600kW 的機架,並且託管服務提供商和雲運營商願意支持這一點,那麼 AMD 或 Intel 現在就可以放心地在他們自己的機架規模平臺中塞入同樣多的計算能力,而不必擔心客户會把它們放在哪里。

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。