繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

熱鬧的存算一體芯片賽道里,后摩的競爭壁壘是什麼? |WAIC 2025

2025-07-29 15:22

「四年前創業時,我常被問道:存算一體那麼好,為什麼別人不做?」后摩智能創始人兼CEO吳強深有體會,「現在一些上市公司或者即將上市的公司都説要佈局存算一體,沒有人再問四年前的問題,大家意識到了存算一體芯片對於大模型的優勢。

存算一體芯片的賽道過去幾年確實十分熱鬧,國內就有十多家公司佈局不同技術路線、不同算力的存算一體芯片。

后摩的壁壘是什麼?吳強説,「看論文做一個測試芯片,證明技術原理不難。我們的壁壘是將存算一體芯片量產,過去四年我們趟過無數的坑,解決了一個又一個量產難題。

世界人工智能大會2025(WAIC)前夕,后摩智能發佈了即將在今年第四季度量產的端邊大模型AI芯片——后摩漫界M50,這是一款單芯片就能運行百億參數大模型的存算一體芯片。

吳強透露,后摩智能已啟動下一代 DRAM-PIM 技術研發。

率先起跑,一次轉向,后摩智能建起壁壘

2020年吳強創業時,選擇存算一體技術路線有兩個核心原因,一個原因是吳強博士論文的方向是高能效比計算芯片以及編譯器,吳強甚至要解決功耗牆和存儲牆問題,必須走存算一體路線。另一個是看到英偉達的強大,決定用創新的架構另闢蹊徑,嘗試彎道超車。

存算一體技術在學術界研究很多,但要將學術研究轉化成商業化落地的產品,中間還有巨大的鴻溝。

「論文里能看到理論和原理,但要把存算一體技術轉化為量產產品,必須解決可測性和可靠性問題,中間有無數的坑。」吳強説,「沒有人做過存算的DFT(Design for Testability,可測性設計),也不知道怎麼做BIST(Built-in Self-Test,內建自測試技術),如何解決小面積大算力帶來的電源穩定性問題?」

業界沒有人遇到這些問題,也沒有對應的製造工藝和EDA軟件,后摩智能的團隊就只能用普通的工藝和EDA軟件填補中間巨大的鴻溝。

「我們非常希望友商一起做,把存算一體芯片的生態做好。」吳強説。

靠着后摩研發團隊攻克一個個難題,2023年后摩發佈了國內首款大算力存算一體智駕芯片鴻途H30,最高物理算力256TOPS,典型功耗35W。

此后雖有后摩智能融資的消息,但一直沒有后摩智能產品和落地方面的消息,直到2025年7月的世界人工智能大會2025(WAIC)。

談及此事,吳強告訴雷峰網(公眾號:雷峰網),2023年下半年整個自動駕駛賽道競爭非常激烈,格局逐漸穩定,給新入局者的機會越來越少。

「我們第一代芯片爲了體現存算一體的優勢,算力很高,也意味着成本高。但當時市場都在講低成本,我們的大算力芯片和汽車芯片市場的需求有鴻溝。」吳強坦言,「那時候在糾結要不要轉型,放棄汽車市場到一個新領域很痛苦,但又知道自動駕駛芯片對我們來説是一條走不通的路。」

「最后生存的壓力戰勝了面子,2023年下半年開始轉型。」吳強説,「我們看到了端邊大模型的新興市場,沒有巨頭公司,與存算一體芯片的適用場景又很契合,2024年初快速調整第一代芯片,針對大模型優化推出了漫界M30。

在股東中國移動的幫助下,后摩智能的漫界M30隨中國移動在2024年的世界移動通信大會(MWC)亮相,這款芯片能夠運行60B參數的模型,給了吳強和團隊信心。

於是后摩智能就堅定轉到端邊大模型芯片的市場,經過近兩年時間,推出了第二代IPU架構的存算一體量產芯片漫界M50。

無論是將存算一體芯片從學術界推向商業市場,還是芯片應用落地的選擇,其中趟過的坑,走過的彎路積累下來的經驗,都是后摩在存算一體賽道和國產芯片公司里的壁壘。

這個壁壘,幫助后摩智能能夠更好設計第二代芯片。 

單芯片160TOPS,能運行百億參數大模型

后摩漫界M50採用的是自研的第二代IPU 架構——天璇,實現了160TOPS@INT8、100TFLOPS@bFP16的物理算力,搭配最大48GB內存與153.6 GB/s的超高帶寬,典型功耗僅10W,相當於手機快充的功率,就能讓PC、智能語音設備、機器人等智能移動終端高效運行1.5B到70B參數的本地大模型。

得益於存算一體通過把計算和存儲單元集成在一起,讓數據就近處理,能從根本上解決傳統芯片「數據傳輸慢、功耗高」問題的特性,和傳統架構相比,M50的能效提升5~10倍,能充分滿足端邊設備"算得快又吃得少"的需求。

爲了能夠最大程度發揮存算一體架構的優勢高效運行大模型,后摩智能進行了一系列的優化,吳強重點分享了兩個優化。

一個是彈性加速,這個技術與GPU的稀疏加速有點類似。GPU的稀疏加速,是在遇到權重參數為「0」時,跳過計算,實現加速。但這種方式權重必須嚴格為「0」,在現實應用中,要讓大量權重都恰好為「0」是非常困難的,因此GPU的稀疏加速效果往往不盡如人意。

SRAM存算一體技術是按照一個比特(bit)一個比特進行串行計算,這意味着后摩可以做到更細粒度的優化。

「我們並不需要整個權重是0,只要它在bit里面有0,就可能做彈性加速。」吳強介紹,這讓加速的機會大大增加,也讓量化變得更加靈活,可以實現7bit、6bit甚至5bit的超低精度量化,從而在不犧牲太多精度的情況下,將性能壓榨到極致。

據悉,天璇架構最高可實現160%的加速效果。

另一個優化是直接支持浮點運算。「基於存算的架構做浮點運算,並把它量產,我們在業內應該是第一個。」吳強解釋,芯片直接支持浮點運算,意味着開源或者FP16的浮點模型可以直接運行,能夠提升適配和應用的效率,只有特殊需要的情況下才會做額外的量化,這進一步降低了漫界M50芯片應用落地的難度。

對於用户來説,易用性還是取決於上層的軟件,包括編譯器。

「第一代編譯器用傳統的方案做,很多功能發揮不出來,所以中間重構了一遍,完全從0-1。」吳強説,「我們也是逐漸地摸索,這種經驗在外面看不到,這是我們積累的壁壘。」

傳統的NPU編譯器有幾百個選項,手動調優困難,導致上手門檻高、使用不便。

后摩重構的編譯器后摩大道,應用了自動的優化算子,只要給一些輸入的圖Graph,它就能自動搜索最優化的策略,無需開發者手動嘗試,支持浮點運算,無需量化參數和精度調優,讓開發者更容易上手。

從硬件到軟件,后摩解決了AI芯片落地的技術難題,市場策略成為后摩走向商業化成功的下一個關鍵。

多元產品組合,重點拓展三大領域

基於漫界M50內建的高速多芯互聯技術,后摩智能推出了覆蓋端側到邊緣的多元算力方案。

力擎LQ50 M.2 卡以口香糖大小的標準 M.2 規格,為 AI PC、AI Stick、陪伴機器人等移動終端提供 "即插即用" 的端側 AI 能力,支持 7B/8B 模型推理超 25tokens/s。

力擎LQ50 Duo M.2 卡集成雙 M50 芯片,320TOPS 的算力,突破 14B/32B 大模型端側部署瓶頸。

力謀LM5050 加速卡與力謀LM5070 加速卡分別集成 2 顆、4 顆 M50 芯片,為單機及超大模型推理提供高密度算力,最高達 640TOPS。

BX50 計算盒子則以緊湊機身適配邊緣場景,支持 32 路視頻分析與本地大模型運行。

目前后摩智能比較看重三個領域,一是平板和電腦這種消費終端類,這是大模型生產力工具,對AI性能有剛需。二是智能語音系統,大模型語音會議也是重點佈局的一個方面。三是運營商的邊緣計算,看中了5G+AI是一個趨勢。

「目前這幾個方面都有早期客户,消費終端、智能辦公、智能工業我們重點佈局的領域。」吳強説,「我們精力有限,先把這三個領域做好,未來只要對大模型有需要,對功耗敏感,都是會逐步拓展的客户。」

在世界人工智能大會(WAIC)后摩的展臺上,后摩也展示了單顆漫界M50芯片運行端側大模型的應用,比如基於Qwen3-14b模型的Chatbot知識問答;還有基於Qwen-8b模型的會議紀要,支持2K左右的上下文,一小時的會議,目前五六分鍾可以生成會議紀要;還有專門為信創市場提供服務的公文寫作,採用純國產芯片和操作系統,運行Qwen2.5-7b模型,速度十分理想。

目前,聯想的下一代AI PC,科大訊飛的訊飛聽見下一代智能語音設備,以及中國移動的新一代5G+AI邊緣計算盒子,都是后摩智能的意向客户。

吳強告訴雷峰網,目前后摩和算法合作伙伴以及OS都有合作,后摩的策略是每個領域與頭部客户直接對接,腰部以及長尾客户用編譯器工具鏈降低客户開發的難度。

接下來,后摩將研發下一代DRAM-PIM 技術,通過將計算單元直接嵌入 DRAM 陣列,使計算與存儲的協同更加緊密高效,這一技術將突破 1TB/s 片內帶寬,能效較現有水平再提升三倍,推動百億參數大模型在終端設備實現普及,讓更強大的 AI 算力能夠融入 PC、平板等日常設備。

從最初的孤獨求證,到如今的大模型端側芯片量產,后摩智能讓存算一體不再只是學術概念,而成為國產AI芯片攻入新場景的「潛航器」。

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。