繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

華為推出新款AI加速卡:國內唯一支持FP4,算力是H20近三倍

2026-03-21 18:01

(文/觀察者網 呂棟)

在剛剛結束的華為中國合作伙伴大會2026上,華為副總裁、ICT產品組合管理與解決方案部總裁馬海旭宣佈,Atlas 350加速卡正式上市銷售,該卡搭載的是昇騰950PR處理器。這也標誌着,在去年華為首次介紹昇騰950PR之后,該芯片如期上市。

華為昇騰計算業務總裁張迪煊介紹,Atlas 350的單卡算力達到了英偉達H20的2.87倍,是目前國內唯一支持FP4低精度的推理產品;其次內存上,它的HBM容量是H20的1.16倍,達到了112GB,多模態生成速度可以提升60%;第三內存訪問顆粒度從512字節減少到128字節,小算子訪存效率提升4倍。

支持FP4低精度意味着什麼?觀察者網梳理發現,英偉達現在想往中國銷售的H200就不支持原生PF4,只有更先進的Blackwell才引入。而支持FP4,本質上是用精度換效率的極致推理方案,意味着70B參數的模型僅需35GB顯存,單卡即可加載,推理延迟大幅降低,而FP16需要140GB顯存。

在現場,崑崙、華鯤振宇、神州鯤泰、長江計算、寶德、軟通華方、百信7家核心夥伴首發基於Atlas 350的整機產品,標誌着昇騰950代際推理算力正式進入商用階段。科大訊飛也表示,新一代星火大模型將與昇騰910/950系列算力底座進行適配。

Atlas 350加速卡 圖源:觀察者網 Atlas 350加速卡 圖源:觀察者網

觀察者網在展臺上看到,Atlas 350的FP4精度算力為1.56P,帶寬達到了1.4TB/s;功耗達到了600W,是H20的1.5倍。

去年華為在全聯接大會上介紹,昇騰950系列分為昇騰950PR和昇騰950DT,前者主要面向Prefill和推薦場景,它採用的是華為自研低成本HBM,HiBL 1.0,相比高性能、高價格的HBM3e/4e,能大大降低推理Prefill階段和推薦業務的投資。

從單卡指標來看,昇騰950PR與英偉達H20掰掰手腕應該不成問題,而在FP8/FP16算力以及顯存帶寬上,與H200仍存一定差距,其600W的功耗指標,也已十分接近H200的700W。

但在訓練場景,隨着模型參數的規模越來越大,比較單卡的性能指標意義已經有限,華為也順勢提出了超節點戰略。在今年的巴展上,華為面向全球展示了Atlas 950超節點,它最大支持8192張昇騰950DT卡通過「靈衢」全光互聯,即便與英偉達計劃2027年上市的NVL576相比,Atlas 950超節點各方面依然有優勢。

在此次合作伙伴大會的昇騰人工智能夥伴峰會上,清華大學計算機系教授、昇騰榮譽顧問鄭緯民表示,超節點憑藉其超高帶寬、超低時延,以及內存統一編址等核心特點,已成為推動AI技術發展的關鍵力量,正逐步成為AI基礎設施建設的新常態。

他還提到,超節點技術已在互聯網、電信、製造等行業落地應用。實踐證明,唯有具備內存統一編址能力的超節點,才能真正實現算力的Scale-Up擴展。超級點讓中國算力具備了支撐世界級大模型的能力,推動我國AI算力從技術跟隨邁向架構引領。

圖源:觀察者網 圖源:觀察者網

技術突破只是第一步,真正的挑戰在於生態持續發展建設。馬海旭在會上表示,2025年8月5號,華為正式明確昇騰全量軟件開源開放。截止目前,CANN等軟件已完成架構解耦,安裝包從8個拆分為29個,支持開發者按需使用,編譯效率提升58%。

「我們還將全流程的支持和貢獻三方開源生態,從算子編程框架Trion到AI框架PyTorch,再到訓推加速引擎FSDP、vLLM等,目前已累計支持了50多個三方開源社區和項目,貢獻了650多個關鍵特性。匹配夥伴開發者的使用習慣的同時,讓大家更好的基於昇騰實現創新落地。今年,我們還將持續提升軟件易用性,進一步優化開箱性能,從易用全面走向好用。」他在演講中説道。

爲了體現昇騰的易用性,張迪煊還提到了智譜的例子。他表示,智譜基於昇騰在3個月時間里,完成多模態大模型GLM-Image的訓練,這個模型創新採用自迴歸加擴散的混合架構,在開源不到24小時內,登頂全球最大開源社區Hugging Face的Trending榜單,證明了昇騰可以訓練出世界級領先的大模型。

在當下,人工智能正快速融入每個人的工作和生活中。今年春節期間,平均每隔1.5天就有一個新模型發佈,模型能力也越來越強,比如Seedance2.0可提供、專業級視頻生成;應用層面,OpenClaw引爆全球Agentic AI發展,實現AI應用從「理解與建議」到「感知與執行」的轉變,短短几周幾乎超越Linux三十年的成就,已成為最受歡迎的開源項目,推動AI算力需求高速增長。

圖源:觀察者網 圖源:觀察者網

但從碎片化場景來看,也並不是每家企業都需要巨無霸算力系統,對於萬億參數大模型訓練,可能需要384卡、768卡,甚至更大的規模。而對於更廣大的企業,8卡滿足基礎推理、小規模訓練,成本可控、運維簡單;64卡突破性能瓶頸,適配中大型訓練,成本遠低於數百卡、千卡,運維難度也在可承受範圍內。

華為也注意到了更多算力檔位的需求。張迪煊表示,針對不同規模大模型,昇騰產品實現了分級分檔升級:面向百億級模型推出A2標卡,內存帶寬達業界1.8倍;面向千億級模型提供單機服務器,算力為業界2.3倍;面向萬億級模型採用雙機超節點服務器,靈衢直連可部署T級模型,整機算力達業界3.78倍。

當下「養蝦」正成為熱潮,再度激起了對一體機的需求。馬海旭等人在會上透露,過去一個多月已有10幾家夥伴推出了基於昇騰的Claw一體機,支撐了100多客户完成基於openClaw的Agent應用開發。截至目前,昇騰已聯合夥伴打造400多款行業一體機,服務2700多家客户,佔據國內一體機市場80%以上份額。

技術先進性和生態成熟度,最終需要市場來驗證。根據Bernstein Research預測,以收入計算,預計2026年華為在中國AI加速器市場的份額將提升到50%,英偉達受產品禁售影響或將降至8%,AMD升至12%,海光提升到8%,寒武紀升至9%,摩爾線程、崑崙芯、沐曦股份和壁仞科技等處於1%-3%的位置。

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。