繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

報道:英偉達與大客户終克 Blackwell 芯片部署難題

2026-02-08 05:42

  一年前,英偉達首席執行官黃仁勛向分析師表示,受新一代 Blackwell 人工智能芯片複雜度大幅提升的影響,其客户從前代人工智能服務器芯片向該款芯片的過渡過程頗具 「挑戰性」。他稱,為提升芯片性能,「服務器機箱、系統架構、硬件配置、供電系統等所有環節都必須做出調整」。

  事實上,對於英偉達的一眾核心客户而言,推動 Blackwell 服務器的落地與規模化運行,一度是令其倍感棘手的難題。據兩名為 OpenAI 及其他大客户提供服務的英偉達員工、一名親歷相關問題處理的Meta公司員工透露,去年大部分時間里,OpenAI、Meta Platforms 及其合作的雲服務商始終難以穩定搭建並使用該類系統。而這些人士均表示,相比之下,客户在收到 Blackwell 之前的英偉達人工智能芯片后,數周內便能順利完成部署並投入使用。

  英偉達核心客户在使用其 Blackwell 系列芯片(尤其是 Grace Blackwell 型號)時遭遇的種種難題,似乎並未對這家芯片巨頭的業務造成嚴重衝擊。英偉達仍是全球市值最高的企業,市值達 4.24 萬億美元,且目前已基本解決阻礙大客户快速大規模部署該系列芯片的諸多技術問題。

  但倘若英偉達未來的新芯片仍出現類似的部署難題,谷歌等競爭對手或將迎來突圍良機 —— 只要這些競品廠商能幫助客户更快地大規模部署芯片,以支撐前沿人工智能技術的研發。此類問題還可能導致難以實現芯片規模化落地的雲服務商利潤縮水,同時拖慢依託這些芯片研發更先進人工智能模型的 AI 企業的研發進度。

  本文內容基於對英偉達、元宇宙員工,以及使用英偉達芯片的雲服務商工作人員、為數據中心提供英偉達芯片安裝服務的合作伙伴的採訪。

  對於 OpenAI、Meta這類客户而言,無法按預期規模搭建芯片集羣,會限制其訓練更大規模人工智能模型的能力。據一名英偉達員工透露,儘管英偉達的客户並未公開抱怨相關問題,但部分客户已私下向英偉達的對接人員表達了不滿。

  為彌補給受挫客户帶來的損失,據一名雲服務商高管及一名參與相關協商的英偉達員工透露,英偉達去年針對 Grace Blackwell 芯片的相關問題,向客户提供了部分退款及折扣優惠。

  英偉達及雲服務商高管均表示,問題主要出在將 72 顆 Grace Blackwell 芯片組聯的服務器上 —— 這類設計本是爲了讓芯片間的通信速度大幅提升,並實現單系統協同運行。該款服務器可與其他服務器互聯互通,組成超大規模集羣,為人工智能模型的高強度訓練提供算力支持。

  英偉達一名發言人表示,公司已於 2024 年迴應了有關 Grace Blackwell 系統部署進度緩慢的相關質疑,並當時向《信息》雜誌發表聲明稱,該類系統是 「有史以來最先進的計算機」,其落地需要 「與客户開展聯合工程研發」。

  聲明中還提到:「英偉達正與頭部雲服務商展開深度合作,其團隊已成為我們工程研發體系和流程中不可或缺的一部分,相關工程迭代屬於行業正常現象,也是我們預期中的環節。」

  OpenAI 基礎設施業務高管薩欽・卡蒂發表聲明稱,這家初創企業與英偉達的合作 「正完全按計劃為我們的研發路線圖提供算力支撐。我們正將所有可用的英偉達芯片全面應用於模型訓練和推理環節,這也推動了研發的快速迭代與產品落地,近期我們發佈的多款模型便是最好的證明」。

  Meta的發言人則拒絕就此置評。

成長的陣痛

  有跡象表明,英偉達已從此次的部署難題中吸取了經驗教訓。公司不僅對現有 Grace Blackwell 系統進行了優化,還針對今年晚些時候即將推出的、基於 Vera Rubin 新一代芯片的服務器開展了改進工作。

  據兩名參與芯片設計的人士透露,英偉達去年推出了性能更強勁的 Grace Blackwell 芯片升級版,以確保其運行穩定性優於初代產品。他們表示,這款名為 GB300 的升級版芯片,在散熱能力、核心材料及連接器品質上均實現了提升。

  一名瞭解具體情況的元宇宙員工稱,曾遭遇初代 Grace Blackwell 系統技術故障的Meta工程師發現,新款芯片的組聯難度大幅降低。另一名為 OpenAI 提供服務的英偉達員工則透露,OpenAI 等部分客户已對尚未到貨的 Grace Blackwell 芯片訂單進行調整,轉而增訂這款升級版產品。

  去年秋季,英偉達曾向投資者透露,其 Blackwell 系列芯片的大部分營收已來自經優化的 Grace Blackwell 服務器,公司計劃在今年實現該款服務器的大批量交付。

  深度依賴英偉達芯片的埃隆・馬斯克旗下 xAI 公司,在 Grace Blackwell 服務器的落地應用上似乎走在了行業前列。去年 10 月,該公司已在孟菲斯的數據中心完成了約 10 萬顆該款芯片的部署並投入運行,目前尚不清楚這一部署策略是否帶來了更優的效果。

先搭建,后測試

  英偉達研發 Blackwell 芯片的目標十分明確:幫助客户以遠優於前代人工智能芯片的規模和成本效益,開展人工智能模型的訓練工作。

  在英偉達的前代服務器中,客户最多隻能將 8 顆芯片進行組聯,且芯片間的通信速度較慢。而 Blackwell 系列芯片的設計核心,是通過在單台服務器內組聯 72 顆 Grace Blackwell 芯片,減少不同服務器間的數據傳輸量,從而釋放數據中心的網絡資源,支撐更大規模人工智能模型的訓練與運行。

  據一名曾參與芯片集羣搭建的甲骨文員工透露,通過該種方式搭建大規模芯片集羣,還能提升基於其訓練的人工智能模型的質量,該系統的設計初衷便是減少模型訓練過程中常見的硬件故障。

  然而,英偉達的這一新設計本身也存在漏洞。將大量芯片高度集成組聯,意味着單顆芯片的故障都可能引發連鎖反應,導致由數千顆芯片組成的整個集羣癱瘓或運行中斷。據三名親歷過此類故障的人士透露,企業若要從最近的保存節點重啟中斷的訓練流程,所需成本從數千美元到數百萬美元不等。

  英偉達 Grace Blackwell 系統的落地從一開始便波折不斷。2024 年夏季,芯片設計缺陷導致量產推迟,各類問題開始顯現。一年前,首批 Blackwell 芯片交付客户后,服務器機櫃又接連出現過熱、連接故障等問題,致使微軟、亞馬遜雲科技、谷歌、元宇宙等核心客户紛紛削減訂單,轉而採購前代芯片。

  多家訂購了 Grace Blackwell 芯片的雲服務商員工表示,他們認為英偉達在相關軟硬件尚未完全調試到位的情況下,便向客户進行了交付。

  但英偉達一名前高管為公司的這一策略進行了辯護,稱 72 芯組聯的 Grace Blackwell 服務器遭遇的這些成長陣痛,恰恰體現了黃仁勛勇於突破技術邊界、而非追求穩妥的經營理念。英偉達現任及前任員工均認為,指望英偉達能精準預判 OpenAI、Meta等客户的規模化部署場景下的芯片性能,本身並不現實。

  且有跡象表明,OpenAI 目前已實現英偉達 72 芯組聯服務器的規模化使用。本周四,OpenAI 宣佈,公司最新的人工智能代碼模型 GPT-5.3-Codex 的研發,全程 「由該款專屬系統聯合設計、提供訓練算力並支撐部署運行」。

營收兑現遇阻

  據兩家雲服務商的高管透露,去年全年,芯片部署的延迟令 OpenAI 的部分雲服務合作伙伴蒙受了損失 —— 這些企業曾為 Grace Blackwell 芯片投入鉅額資金,原本期望芯片能快速上線並收回成本,而云服務商只有在客户開始使用芯片后,才能獲得相關收入。

  據一名參與相關協商的雲服務商高管透露,為緩解資金壓力,部分雲服務商去年與英偉達協商達成了折扣協議,得以按實際使用量的較小比例支付芯片費用。

  另據一名英偉達員工及一名英偉達製造合作伙伴的工作人員透露,英偉達還為部分退回服務器的客户辦理了退款。

  雲服務商推出新技術時,往往需要先承擔相關成本,待客户開始使用硬件后才能獲得收入,因此這一階段的利潤率通常較低。一份文件顯示,在截至去年 8 月的三個月里,甲骨文公司因出租 Blackwell 系列芯片虧損近 1 億美元,究其原因,是甲骨文完成服務器調試並向客户交付的時間,與 OpenAI 等客户開始使用並支付租金的時間存在明顯滯后。

  這份為甲骨文雲業務高管準備的內部演示文件指出,Grace Blackwell 芯片租賃業務毛利率為負,主要是受 OpenAI 位於得克薩斯州阿比林市的數據中心相關芯片部署問題,以及客户驗收周期滯后的影響。

  甲骨文此后曾向投資者表示,其人工智能雲業務最終將實現 30% 至 40% 的毛利率,這一預期已涵蓋數據中心上線前的投入期。

  甲骨文的發言人則拒絕就此置評。

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。