熱門資訊> 正文
2025-01-24 20:31
阿里、蘋果、新思科技加入UALink聯盟
近日,UALink聯盟發佈官方公告,宣佈阿里雲、蘋果公司以及新思科技已正式加入董事會,共同致力於推動下一代人工智能集羣互連技術的發展。
據先前報道,UALink 聯盟成立於2024年10月,由AMD、亞馬遜AWS、Astera Labs、思科、谷歌、慧與、英特爾、Meta和微軟九家知名企業共同發起,旨在聯合挑戰英偉達在人工智能數據中心互聯領域的領先地位。
蘋果公司在董事會中的影響力可能會激發公眾對於其開發數據中心專用芯片的種種猜想,該芯片預期將利用UALink互連技術為iPhone提供人工智能服務。
UALink 聯盟致力於為AI Pod和集羣中加速器與交換機之間的縱向擴展通信制定一套高速、低延迟的互聯規範,以期在該領域挑戰英偉達NVLink等互聯技術的主導地位。
該聯盟的首個正式版規範UALink 1.0計劃於今年向貢獻者成員發佈,並將於明年第一季度向公眾開放審查。
該規範預計將實現AI Pod中最多1024個加速器的每通道擴展連接,達到高達200Gbps的擴展連接速度。
UALink 聯盟此次迎來三大行業巨頭的加入,標誌着UALink技術獲得了更廣泛的業界支持,有望推動其在人工智能領域的廣泛應用。
UALink 聯盟主席Kurtis Bowman對新成員的加入表示熱烈歡迎,並指出,聯盟成員已超過65家,成員類型包括雲服務提供商、芯片與IP技術供應商、軟件公司以及系統OEM廠商等。
UALink 1.0規範預計將於2025年第一季度正式發佈,屆時將支持每通道高達200Gbps的擴展連接,最多可在AI Pod內連接1024個加速器。
UALink與英偉達的實力較量
①性能對決:在數據傳輸速率方面,英偉達的 NVLink 技術始終佔據行業領先地位。
以第五代 NVLink 為例,單個NVIDIA Blackwell Tensor Core GPU支持高達18 個NVLink 100GB/s 連接,總帶寬達到 1.8TB/s,這一成就在相當長的一段時間內是業界難以超越的。
然而,UALink 1.0 的問世打破了這一局面。
據 TechCrunch 報道,UALink 1.0 計劃通過單個計算 Pod 連接多達1024個AI芯片,並且單個通道速率可達 200Gbps,在大規模芯片互聯的場景下,其總帶寬能力令人矚目。
在處理大規模深度學習模型訓練時,大量模型參數需要在芯片間迅速傳輸,UALink 1.0 的UALink作為新一代AI/ML集羣性能的高速加速器互連技術,以其低延迟和高帶寬特性著稱。
原生支持高性能內存語義訪問,與GPU等AI加速器的編程模型高度兼容,能在單一超節點內實現大規模AI計算節點的互連。
UALink的優勢還體現在顯存共享、支持Switch組網模式以及其超高的帶寬和極低的時延性能上。
該技術規範定義了一種創新的I/O架構,單通道傳輸速率可達200 Gbps,支持多達1024個AI加速器的互連。
相較於傳統以太網(Ethernet)架構,UALink在性能和GPU互連規模方面均展現出顯著優勢,其互連規模遠超Nvidia NVLink技術。
以Dell PowerEdge XE9680服務器為例,單台服務器最多可支持8塊AMD Instinct或Nvidia HGX GPU。
採用UALink技術后,可實現百台級服務器集羣內GPU的直接低延迟訪問。
更為重要的是,UALink在加速器、交換芯片、Retimer等互連技術上保持中立,不偏袒任何特定廠商,致力於構建一個開放創新的技術生態系統。
②生態系統之爭:憑藉在GPU領域的深厚積累及市場領導地位,英偉達構建了一個龐大且成熟的生態系統。
其CUDA平臺作為該生態系統的基石,向開發者提供了廣泛的開發工具和庫,使得他們能夠利用英偉達的GPU和NVLink技術進行高效的應用開發。
在COMPUTEX 2023大會上,英偉達透露,CUDA平臺已擁有超過四百萬的開發者,三千多個應用程序,以及高達四千萬次的歷史下載量。
眾多企業和開發者基於英偉達的生態系統,進行深度學習、數據分析等應用的開發,形成了顯著的用户粘性。
相對而言,UALink的生態系統尚處於成長階段,但其開放標準的策略已吸引了眾多企業的參與。
對於數據中心運營商而言,他們將擁有更多元化的選擇,不再受限於英偉達的技術和產品,從而能夠根據自身需求和預算,靈活選擇最適宜的互聯技術和硬件設備。
這將有助於降低數據中心的建設成本,提升服務質量和效率,推動整個數據中心行業的健康發展。
UALink提供了追趕英偉達的機會
儘管英偉達已將NVSwitch應用於NVIDIA DGX GB200 NVL72等產品,但AI加速器市場並非僅由英偉達一家獨佔。
例如,英特爾今年已銷售數億美元、數萬個AI加速器,而AMD今年也將銷售數十億美元的MI300X。
擁有UALink技術后,Broadcom等公司能夠生產UALink交換機,以協助其他公司擴展規模,並在多家公司的加速器中使用這些交換機。
目前,UALink已成為最具潛力的AI服務器Scale UP(縱向/垂直擴展)互連開放標準,並正在迅速構建起一個AI服務器Scale Up互連技術的超級開放生態。
截至11月,UALink聯盟已有三十余家廠商加入,並持續擴展;其成員涵蓋了雲計算和應用、硬件、芯片、IP等產業全生態。
這一變革主要源於超大規模人工智能集羣對網絡帶寬和低延迟需求的增加,導致行業集羣規模不斷擴大。
網絡連接成為釋放AI集羣性能潛力的關鍵因素
在規模較小的人工智能集羣中,例如包含10萬個XPU的集羣,網絡連接的價值量佔比大約為XPU總價值的5%至10%。
然而,當人工智能集羣規模增長至50萬至100萬個XPU時,該比例顯著上升至15%至20%的價值佔比。
預計到2025年,北美四大超級雲服務提供商的資本開支將增至3150億美元,較前一年增長46%,資本開支的同比增速保持在高位,顯示出對算力需求市場的樂觀態度。
因此,建立更大規模的人工智能集羣已成為海外超級雲服務提供商的共同戰略。
目前,英偉達的專有網絡連接技術NVLink+InfiniBand,已成為其軟件生態CUDA之外的硬件護城河。
面對英偉達芯片算力的壟斷,行業正尋求突破,特別是隨着全球推理業務需求的首次增長以及定製芯片ASIC市場份額的持續擴大,為行業打破英偉達壟斷提供了極佳的時機。
結尾:
芯片領域的競爭實質上是軟件生態系統之間的較量,這也是業界試圖通過網絡硬件技術如NVLink打破英偉達市場主導地位的關鍵所在。
顯而易見,當前業界兩大陣營,即UALink和超以太網聯盟UEC,正分別針對NVLink和InfiniBand進行技術突破。
回顧歷史,從挖礦時代專用集成電路ASIC的崛起,逐漸取代了通用圖形處理單元GPU成為挖礦的主要力量,到如今人工智能計算芯片ASIC的再次興起;
業界聯盟正率先通過網絡硬件技術如NVLink來突破英偉達的市場壟斷,歷史似乎正準備再次重演。
部分資料參考:半導體行業觀察:《NVLink迎來勁敵:九大巨頭,正式成立UALink聯盟》,阿里雲:《阿里雲當選UALink聯盟董事會成員,推進新一代GPU互連技術》,Synopsys:《如何利用業界首發的超以太網和UALink IP,高效互連技術擴展HPC和AI加速器生態系統》,電子工程世界:《英偉達的籌碼,又少了一枚》,新財富:《英偉達還能走多遠》