繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

世界模型來了,舊的自動駕駛芯片開始失效

2026-05-25 09:34

過去幾年,汽車行業有一個越來越明顯的變化:車企開始親自下場造芯片。

特斯拉有 FSD 已迭代至第五代;蔚來推出神璣 NX9031;小鵬自研 AI 圖靈芯片;理想造了馬赫 M100;比亞迪、吉利、Momenta 也被頻繁點名。

表面上看,這是一場「去英偉達化」的運動。

但如果只看到這一層,就太淺了。

真正的問題是:自動駕駛模型本身,已經開始變了。

從 CNN,到 Transformer,再到 DiT 與世界模型,模型範式在切換,而舊時代的芯片邏輯,未必還能接住下一代自動駕駛。

這纔是車企重新造芯片的真正原因。

01

不是省錢,是搶控制權

自研還是外採,表面是商業決策,骨子里是對技術路線的判斷。

自研或外採取決於車廠對自動駕駛路線的判斷,芯片研發周期比較長。

從完整定義設計目標到芯片上量產車型,中間需要 2-4 年。海外廠家更長,可能是 3-5 年。

這意味着芯片廠家在今天落筆,押注的其實是 5-8 年后的技術走向。

預測錯了,要麼芯片生命周期大幅縮短,要麼乾脆沒人用。

做汽車數字類芯片,賭性確實很大。

車企自研芯片,某種意義上是在説:我比供應商更清楚自己五年后要跑什麼模型。

5 納米甚至 3 納米,一次性工程費用加對外採購 IP 高達數億人民幣。一次性工程費用加 IP 授權,動輒數億人民幣。

出貨量不夠,賬面上一定是虧的。但這筆錢可以進整體研發成本,還能拉高市值、強化科技品牌。

賬算到最后,商業邏輯是通的。

技術門檻方面,隨着 IP 生態成熟、EDA 工具鏈完善,以及索喜這類專門服務車廠定製芯片的中間商涌現,工程難度正在快速下降。

真正難的部分,已經轉移到軟件棧、編譯器和長期模型適配上,這恰恰是芯片供應商最難替你定製的部分。

02

模型變了,

芯片的邏輯也得變

先搞清楚現在的自動駕駛,在跑什麼模型。

目前自動駕駛路線有三條。

一是分段端到端,大多數廠家的選擇,典型代表是 Uni-AD,總參數一般不超過 5 億。

二是VLA 路線,視覺-語言-行動模型,加擴散動作專家或 MLP,融合世界模型提高推理效率,VLA 通常是 MoE 架構,參數一般在 20—70 億。

三是世界模型加擴散動作專家,目前還沒有量產上車的案例,要等的時間可能比想象中更長。

這三條路線對芯片的需求截然不同。

而且沒有哪家廠家只押一條路。

三條線都在做,都在看,沒人敢掉隊。

這里有一個流傳很廣的誤區:只要 TOPS 數值夠大,就能應對所有模型。

CNN 時代確實如此,算力堆上去,性能就上去。但今天是 CNN+Transformer 的混合時代,明天可能是 Transformer+DiT 的時代。

5000TOPS 的芯片,跑 DiT 架構,很可能打不過 300TOPS 的對手。

決定勝負的,是存儲帶寬、編排能力、緊耦合分級內存、SFU、可編程向量算力。哪一個,都比 TOPS 數字重要。

TOPS 崇拜,正在失效。

世界模型的核心是 DiT 架構

03

世界模型帶來的新麻煩

第三條路線是去年才真正成形的。它的核心架構,叫DiT

世界模型的典型架構,上圖來自論文 Fast-WAM: Do World Action Models Need Test-time Future Imagination?

世界模型為什麼特殊?

因為 DiT 對時序信息有天然的親和力。它不只是個「更好的圖像生成器」,而是為視頻、動畫乃至自動駕駛和具身智能量身打造的架構。

無論聯合建模、先想象后執行,還是「訓練時建模、推理時直出動作」,無論哪一種世界模型範式,DiT 都是核心。

問題在於:市面上根本沒有為 DiT 推理專門設計的芯片。

擴散模型推理流程

擴散模型的推理流程異常複雜。

傳統高算力芯片只能應對稠密張量矩陣乘法,也就是去噪循環內部的計算。

其余的不規則計算、向量編碼、內存敏感的激活,要麼依賴標量 CPU,要麼靠向量算法,對芯片設計構成嚴峻考驗。

如果一家車企決心沿世界模型路線走,又不想等市場上出現合適的芯片,大概率只有一條路:自研。

04

存儲帶寬,纔是真正的命門

有一個細節值得單獨拿出來説。

無論哪條技術路線,存儲帶寬都是越寬越好。

VLM(視覺 語言模 型)最為典型——解碼階段是 VLM 的主要耗時,而解碼速度完全由存儲帶寬決定。

換句話説,VLM 的整體性能,本質上是存儲帶寬的性能。

這也是為什麼特斯拉 AI4/AI5 不惜血本拓寬存儲帶寬。他們很清楚,真正的瓶頸在哪里。

自迴歸 (AR) 架構的解碼階段是內存綁定的。算力再高,也無法加速。系統性能完全取決於存儲帶寬和調度延迟,這個階段甚至有些小模型在 CPU 上跑比 GPU 還快。

擴散模型則是另一種困境:它高度依賴 Batch size ( 併發批處理數量) 。Batch 越大,矩陣乘法單元利用率越高。但 Batch 一大,去噪循環外的不規則運算和調度消耗就會暴漲,整體延迟大幅增加。

對延迟敏感的自動駕駛場景,Batch 通常只能設 1-4,很少超過 8。結果是:GPU 賬面算力驚人,實際大量空轉。

05

大核、中核、小核:

三種計算哲學

自動駕駛芯片的核心是 AI 加速器。而 AI 加速器的路線之爭,本質上是三種計算哲學的對撞。

按照單個矩陣乘 ALU 的 M×N×K 維度,目前分三個流派:大核心、中核心、小核心。

(1)大核心:極致效率主義

大核心的典型是脈動陣列架構。

谷歌 TPU v5/v6,256×256,每個核心有 65536 個 MAC 陣列。數據只流入一次,沿脈衝向前傳,SRAM 讀取壓力遠低於小核方案。跑 LLM/VLM 這種形狀高度規整、batch 極大的模型,能效比和性價比遙遙領先。

典型代表:谷歌 TPU、AWS Trainium、Groq LPU、英特爾 Gaudi、特斯拉 HW3.0、蔚來神璣、小鵬圖靈、芯擎、高通 AI100。

TPU v5 每陣列頻率 1.5GHz,單核算力約 197TOPS;v6 升級為 Tile 脈動,同頻率下單核算力達 918TOPS。每條指令驅動 65536 次 MAC,稠密矩陣乘法上的效率壓倒性領先。

代價也很明顯。大核心更像一條超大型流水線——數據形狀足夠規整時效率極高,一旦模型結構變得稀疏、動態或非規則,流水線就開始空轉。

大核心的缺點也很明顯,首先是對數據流形狀或者説矩陣形狀高度敏感,256*256 的陣列要求 M\N\K 都必須是 256 的整數倍,如果不是整數倍,就需要 tile 切分、padding、layout 變換、雙緩衝、collective。

256×256 的陣列要求 M/N/K 都必須是 256 的整數倍,稍有偏差就需要大量預處理工序。

編譯器做得差,計算利用率低到 10% 甚至 1% 不罕見;做得好,也很難超過 40%。跑一個百億參數的模型和一個千萬參數的模型,用時可能一樣。軟

件團隊規模是硬件的十倍以上——這條路,養人成本極高,虧損幾乎不可避免。

另一個硬傷:

非結構化稀疏完全無效。自動駕駛視覺模型是典型的稀疏模型,而大核心是典型的稠密引擎。

谷歌 TPU v6e 為此單獨增加了稀疏張量核心,但這必然增加軟件複雜度和調度時間。

(2)小核心:極致靈活主義

小核心實際就是多核 CPU。

小核心的極端代表是特斯拉 Dojo——實質上是 384 核心 CPU 的集合體,每核有獨立分支、循環、PC 和本地 SRAM。

它的天然優勢:對任何形狀的數據都能輕松處理。

batch=1 也能保持很高的利用率;天然適配 decode、MoE expert 路由、可變長 KV cache;原生支持非結構化細粒度稀疏。

Cerebras 的報告顯示,75% 稀疏度下相對稠密基線可達約 2.5 倍實際加速——這在大核心架構上根本做不到。

代價同樣明顯。每個小核都要付出獨立取指/譯碼/寄存器堆/控制邏輯的開銷。同樣工藝同樣算力下,純小核設計比脈動陣列多付 2—5 倍面積,也就是同樣算力,成本要貴 2—5 倍。

這個數字,足以讓大多數廠家望而卻步。所以真正走小核路線的,鳳毛麟角。

(3)中核心:平衡主義

英偉達選擇了第三條路——既不極致,但也從不死路。

GPU 把矩陣單元做在 16×16,數量比大核多、遠少於 CUDA core,一顆 H100 上中核 Tensor Core 負責稠密算力、CUDA 小核負責控制流和稀疏兩套並存。warp 調度隱藏 shape 敏感性,不對齊的部分交給 CUDA core 補齊。

這正是英偉達真正強的地方,從來不是算力本身,而是在效率、靈活性與生態之間找到了某種平衡。

這也是為什麼,即使所有車企都在喊「去英偉達化」,真正完全脱離英偉達的公司依舊極少。

典型代表:英偉達、AMD、華為(910/810/610 從一開始就是 16×16×16)、理想、Momenta。特斯拉 AI5 大概率也走中核路線。

高通的 NPU 是這套邏輯的另一個註腳。

從 SA8155 的 8TOPS 到 SA8397P/SA8797 的 80TOPS,矩陣單元數量一直沒有變化,標量和矢量線程數量卻在持續增加——應對越來越複雜的推理場景,高通選擇的是往小核方向加籌碼。

06

沒有完美的芯片,只有押注

三條路線,各有死穴。

對於 VLM 這種大模型,GEMM 密度很高,矩陣尺寸大,大核心幾乎完美,模型越大越完美。

但對於 DiT 和擴散模型,串行屬性明顯,某些部分 GEMM 密度很高,其余都是低密度,更適合小核心。而小核心的性價比,很難讓商業決策者滿意。

英偉達的中核心,在 GEMM 和非規則計算之間走鋼絲,但應對 DiT 和擴散模型時,依然有力不從心的地方。

車載場景的特殊性還在於:不大可能跑百億參數以上的大模型,存儲成本撐不住。中核心加小核心的組合,或許是比較務實的應對方式。

小米的玄戒做汽車座艙芯片,技術上沒有障礙;吉利、比亞迪、Momenta 的自研芯片項目,大概率也在推進中。

唯有傳統車廠,依然秉持能外採絕不自研的邏輯。

這無可厚非,只是在模型範式加速切換的當下,這個原則面臨越來越大的壓力。

自動駕駛芯片真正難的,從來不是把芯片造出來。

而是今天就要押中,五年后 AI 會長成什麼樣子。

本文來自微信公眾號「汽車之心」(ID:Auto-Bit),作者:周彥武,36氪經授權發佈。

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。