熱門資訊> 正文
2023-04-14 15:30
21世紀經濟報道記者白楊 北京報道
4月14日,騰訊雲正式發佈新一代HCC(High-Performance Computing Cluster)高性能計算集羣。據悉,該集羣採用騰訊雲星星海自研服務器,搭載英偉達最新代次H800 GPU,服務器之間採用3.2T超高互聯帶寬,可為大模型訓練、自動駕駛、科學計算等提供高性能、高帶寬和低延迟的集羣算力。
騰訊雲的實測數據顯示,新一代集羣的算力性能較前代提升高達3倍,是目前國內性能最強的大模型計算集羣。去年10月,騰訊完成首個萬億參數的AI大模型——混元NLP大模型訓練,當時的訓練時間為11天,如果基於新一代集羣,訓練時間將縮短至4天。
在AI大模型火熱的當下,算力也成為業界關注的重點。這是因為在大模型的訓練過程中,算力、算法和數據缺一不可。隨着圍繞AI大模型的全球軍備競賽打響,業界對算力的需求也更加旺盛。
去年,有研究機構預估,未來對一個大模型訓練所需的算力,可能每三、四個月就需要翻一番,這意味着一年就要增加10倍。而今年在ChatGPT的推動下,算力的增長也將進一步提速。
騰訊雲異構計算產品總監宋丹丹此前接受21世紀經濟報道記者採訪時表示,大模型對算力的要求分為訓練和推理兩個階段。其中,訓練需要短時間內並行算力非常全且非常大,並且要在短時間內能夠交付,所以對算力的量級、算力的穩定性彈性擴容能力都有較高的要求。
現階段,AI大模型正處於訓練需求的爆發期,大家都需要海量的可擴縮容的高性能算力,而且這些算力需要穩定交付和計算。所以對雲廠商來説,目前正迎來一個全新的市場機遇。
首發H800
過去幾年,算力其實也在因需而變,以往的計算已經變成了智算。所謂智算,也稱異構計算,是用不同製程架構、不同指令集、不同功能的硬件組合起來解決問題的計算架構。例如,相對於只用CPU的通用計算,在服務器里使用CPU+GPU就是異構計算。
智算背后的邏輯,是讓最適合的專用硬件去做最適合的事。GPU在並行計算任務為主的AI訓練/推理和圖形圖像處理等專用場景上,比傳統CPU效率更高且延迟更低。
騰訊雲此次發佈的HCC,也是利用並行計算理念,通過CPU和GPU節點的一體化設計,將單點算力性能提升至最強。除此之外,騰訊雲新一代HCC備受關注的原因,是它在國內首發了英偉達H800 GPU。
資料顯示,H800是英偉達新代次處理器,基於Hopper架構,對跑深度推薦系統、大型AI語言模型、基因組學、複雜數字孿生等任務的效率提升非常明顯。與A800相比,H800的性能提升了3倍,在顯存帶寬上也有明顯的提高,達到3 TB/s。
雖然論性能,H800並不是最強的,但由於美國的限制,性能更強的H100無法供應給中國市場。有業內人士表示,H800相較H100,主要是在傳輸速率上有所差異,與上一代的A100相比,H800在傳輸速率上仍略低一些,但是在算力方面,H800是A100的三倍。
先進芯片不等於先進算力
芯片受限,固然是個卡脖子難題,也需要投入更多力量去解決。但從AI大模型訓練的角度,近日多位AI行業人士在接受記者採訪時均提出,算力的提升不是單純堆卡,而是存在「木桶效應」,計算、存儲、網絡一旦出現瓶頸就會導致運算速度嚴重下降。光增加GPU卡或計算節點,但網絡時延沒降低,並不能線性地提升算力收益。
所以,用上了先進芯片並不代表就擁有了先進算力。以算力對網絡的要求為例,目前GPU並行是大模型訓練的必備技術,不同於傳統並行以加快計算速度為目的,大模型的並行計算往往還要考慮怎樣將龐大的參數有機地分佈到多張GPU卡中,並保持不同GPU卡之間有效的通信,整體配合完成大模型的訓練部署。
即使是目前業界已有的GPU分佈式訓練方案,也嚴重依賴於服務器之間的通信、拓撲、模型並行、流水並行等底層問題的解決情況。如果只有分佈式訓練框架,甚至都無法正常啟動訓練過程。這也是為什麼當時GPT-3已發佈一年,卻只有少數企業可以復現GPT-3。
先進算力的背后,是先進芯片、先進網絡、先進存儲等一系列的支撐,缺一不可。比如在網絡層面,模型參數量越大,對帶寬的需求就越高。相比單點GPU故障隻影響集羣算力的千分之幾,一條鏈路的負載不均導致網絡堵塞,就會成為木桶短板,影響到數十個甚至更多GPU的連通性。在這種情況下,其他鏈路即使暢通無阻,通信時間仍然會大幅度增長,進而直接影響訓練效率。
此外,集羣訓練也會引入額外的通信開銷,導致N個GPU算力達不到單個GPU算力的 N 倍。業界開源的GPU集合通信庫(比如NCCL),也不能將網絡的通信性能發揮到極致。
優化計算集羣彌補芯片短板
正因算力的「木桶效應」,也給了雲廠商可施展的舞臺。通過對單機算力、網絡架構和存儲性能進行協同優化,提高算力效率,雲廠商的高性能計算集羣是能夠彌補芯片一部分傳輸損耗的。
騰訊雲此次發佈的新一代HCC,在網絡層面,利用自研的星脈網絡為新一代集羣帶來了3.2T超高通信帶寬。實測結果顯示,搭載同樣的GPU,3.2T星脈網絡相較1.6T網絡,能讓集羣整體算力提升20%。
存儲層面,訓練場景下,幾千台計算節點會同時讀取一批數據集,需要儘可能縮短數據集的加載時長。騰訊雲的新一代集羣,引入了自研的文件存儲、對象存儲架構,具備TB級吞吐能力和千萬級IOPS,可支持不同場景下對存儲的需求。
底層架構之上,針對大模型訓練場景,新一代集羣集成了騰訊雲自研的TACO Train訓練加速引擎,對網絡協議、通信策略、AI框架、模型編譯進行大量系統級優化,大幅節約訓練調優和算力成本。
另外值得關注的是,騰訊多款自研芯片也已經量產。其中,用於AI推理的紫霄芯片、用於視頻轉碼的滄海芯片已在騰訊內部交付使用。據騰訊雲披露,紫霄目前已經在騰訊頭部業務規模部署,可提供高達3倍的計算加速性能和超過45%的整體成本節省。
數據顯示,騰訊雲目前的分佈式雲原生調度總規模超過1.5億核,並提供16 EFLOPS(每秒1600億億次浮點運算)的智算算力。對於近半年突然火熱的AI大模型,宋丹丹表示,市場環境的變化沒有打亂騰訊雲的產品規劃,但確實是讓產品節奏提前了,因為AI業務和計算算力是相互促進的,AI技術迭代對算力提出更高的要求,那我們也會有更高的動力去讓算力產品更快演進。
(作者:白楊 編輯:駱一帆)