繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

MLPerf揭榜:拆解「黃金標準」背后的AI存儲新姿勢

2025-08-22 15:59

原標題:MLPerf揭榜:拆解「黃金標準」背后的AI存儲新姿勢

大模型正在進入普遍萬億參數時代。

一方面,算力的重要性近一步提升;另一方面,萬億參數的壓力同樣給到了存儲——如果説過去AI計算對存儲性能的需求似乎還不那麼急迫,那麼現在存儲性能能否跟上,正在很大程度上決定AI創新的成敗。

企業如何選擇最能契合需要的存儲產品方案?

不久前,全球權威AI性能評測組織公佈最新MLPerf® Storage v2.0基準測試結果,這份權威榜單,除了直接給出企業如何選擇供應商的參考,更給出了一份存儲面向萬億參數時代如何演進的答案。

與真實場景需求共舞,

MLPerf「黃金標準」再進化

2018年,早在大模型還沒起勢時,谷歌、英偉達、英特爾、哈佛大學等 70余家頂 尖科技企業和學術機構就聯合推動發起了MLPerf,要通過統一框架避免廠商自測的片面性,覆蓋訓練、推理、存儲、HPC等全場景測試,為用户提供客觀採購依據。

到目前為止,MLPerf已經被公認為AI硬件性能的「黃金標準」,全球頭部企業(英偉達、谷歌、AMD、華為等)均定期提交測試結果。

可以看到,無論發起者還是參與者都是當下最前沿的科技企業,有着對AI計算發展最深度的理解,這使得MLPerf並非AI時代很多榜單那樣的「奧數競賽」(只爲了刷分數而與現實需要脱節),而是一直來源於現實,並且指導現實技術進化。

因此,看待MLPerf榜單,絕不能僅僅從參數排行來看,而更應該關注它背后的規則邏輯,這些規則邏輯代表着AI計算實踐過程中最 符 合企業實際需要的現實。

典型如,MLPerf存儲基準測試在規則上的變化過程,去年該測試進行了一次適應性升級到了V1.0版本(這次是2.0版本,規則沿用),最 大的不同是核心指標發生變化,即在給定的訓練模型和GPU型號下,存儲系統能支持的GPU數量,而非每GPU帶寬值或每計算節點帶寬值——這次的MLPerf存儲基準測試,其目標就是滿足一定加速器利用率的前提下,測試出存儲系統能夠支持的最 大加速器數量以及能夠提供的最 大帶寬。

規則變更的背景,是萬億參數時代到來,訓練數據集的規模正從TB級別上升至PB級,存儲系統必須具備強大的擴展能力和對大規模AI集羣的支持能力,畢竟,支持更多的GPU數量將會決定系統性能的「上限」(固定資產投資方面也更能攤薄邊際成本),只糾結單個GPU性能數據的參考意義並不大。

華為OceanStor A系列存儲聯合濟南超級計算技術研究院(JNIST)的合作解決方案,在此次MLPerf測試中獲得單存儲設備、每U存儲設備及單客户端性能等榜單上的全球第 一,原因就在於此。

從直接的參數性能來看,在Training場景中,單台8U雙節點架構的OceanStor A800獲得單存儲設備性能第 一,持續提供698 GiB/s的穩定帶寬:

單台2U雙節點架構的OceanStor A600獲得每U設備及單客户端性能第 一,其中每U帶寬穩定達108 GiB/s,單客户端帶寬達104 GiB/s:

同樣的命題,顯著的領 先,離不開華為OceanStor A800以單台8U雙節點架構可支撐255張H100 GPU訓練數據吞吐需求,而OceanStor A600以單台2U雙節點架構的可支撐76張H100 GPU訓練場景的吞吐需求。

不是有人「打榜」到了第 一,而是一貫來源於實際需求的MLPerf在告訴業界什麼纔是最 符 合需要的,這纔是「黃金標準」的內涵。

如此,MLPerf也才能反過來引導和推進技術創新,帶來英偉達Blackwell的FP4精度、TensorRT-LLM框架優化、Untether AI芯片能效提升等「榜單測試反哺技術創新」的經典案例。

值得一提的是,多加速器支持並不是所有場景的AI存儲需求都十分迫切,那些足夠有實力的廠商要想充分體現自己在新需求下的能力,必須選擇更能壓榨性能的用例。因此可以看到華為存儲在MLPerf Storage Traning場景下3D U-Net、Resnet50、cosmoflow三個用例中,選擇了(在H100算力卡下)3D U-Net這個對存儲帶寬壓力最 大的訓練用例,這樣才能將其多加速器支持進行最極 致的展現,充分表達存儲產品的性能。

「強化協同下的資源池化」

——AI計算、存儲發展趨勢殊途同歸

不久前的世界人工智能大會上,384塊昇騰910C組合在一起昇騰384超節點成為全場焦點:

以更多的芯片數量進行AI計算,資源「池化」集羣獲得高算力(昇騰384超節點總算力高達300 PFLOPS),類似的還有英偉達的NVIDIA GB200 NVL72集羣系統,72個GPU實現180 PFLOPS算力。

MLPerf在存儲方面評測規則及勝出廠商的玩法,其實與這種AI計算性能的發展邏輯同向而行。當多芯片資源的池化整合大大拉昇AI計算的能力上限,對應地,存儲去支持更多的GPU數量、實現總帶寬突破而不糾結對單個GPU支撐能力數據,也是大勢所趨。

在這個過程中,協同能力是關鍵——不能「無腦堆砌」,「強化協同下的資源池化」纔有意義。英偉達用於卡間互聯的NVLink技術以及傳統銅纜傳遞數據支撐不起更龐大的集羣,其集羣算力比不過有光通信支持的昇騰超節點。

在AI存儲對多GPU的支持這里,也存在類似的現象。

由於多GPU計算存在「木桶效應」,在一個計算Step中,某一個GPU數據延迟會造成其他加速器「等待」,最終拖慢整個Step使得利用率降低、無法獲得預期的帶寬,存儲必須做到在高帶寬壓力下(意味着更多GPU),也能夠給訓練系統提供穩定的低時延(提升利用效率),華為OceanStor A系列存儲正是與合作伙伴JNIST一起解決了這一「既要又要」難題才最終登頂榜首。

換句話説,在AI存儲這里,不是你想要支撐更多GPU就能支撐起來的,做好協同才能不斷提升帶寬上限,否則「加法」的效率會越來越低。

「屏蔽複雜性」,

存儲創新迴歸IT服務本質

「強化協同下的資源池化」對企業而言究竟意味着什麼?

答案是IT供應商的本質任務——屏蔽複雜性,無論是AI計算還是AI存儲,企業只需要索求一個最終的結果,有限預算下更強大的算力或者更高的帶寬,各種複雜技術協同都由供應商來解決。

這個底層邏輯推動着那些優質存儲廠商的發展,登頂MLPerf的華為OceanStor A系列產品,在更體系化的層面是華為AI存儲解決方案的一部分,后者在更整體上幫助企業全面屏蔽複雜性,纔有了前者的「出街」。

具體來看,數據在當下已經成為企業的重要資產,但過去普遍的基礎設施分開建設的做法,讓企業們形成了「煙囪式」數據孤島,這是數字化時代留給智能化時代的負面遺產,它很「複雜」,嚴重影響到企業的AI創新。

而華為存儲站了出來,基於過去長期服務企業的經驗,幫助企業「屏蔽複雜性」,構建起了統一的AI數據湖解決方案。不管企業數據再亂、再複雜,需要支撐AI計算的時候,華為的方案創新都能幫助企業「抹平」數據到計算的鴻溝,智能分級流動,打破數據孤島,保證AI數據高效供給,大幅提升AI集羣算力利用率,節省大模型訓練時間。

這是一種「瞌睡遇枕頭」式的創新,在這個創新體系中,除了OceanStor A系列,華為存儲還提供大容量存儲池,滿足企業多模態、萬億參數大模型容量訴求,以及數據保護全面保障數據安全。

順着這個思路往下看,很多存儲創新都更能夠被理解,例如當企業需要不同類型的數據範式時,華為存儲構建PB級KV Cache全局共享資源池,不僅10倍提升推理吞吐,還內置RAG知識庫,各種「雜七雜八」的數據形式都被支持,企業不需要直面這些「複雜性」,只需要放手發展自己的AI能力即可。

總而言之,MLPerf榜單的「登頂」者,向業界展現的是一系列圍繞市場最真實需要的存儲創新進化過程,這不是一次簡單的「打榜」,而是創新風向的指南針

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。