熱門資訊> 正文
2026-05-25 09:34
過去幾年,汽車行業有一個越來越明顯的變化:車企開始親自下場造芯片。
特斯拉有 FSD 已迭代至第五代;蔚來推出神璣 NX9031;小鵬自研 AI 圖靈芯片;理想造了馬赫 M100;比亞迪、吉利、Momenta 也被頻繁點名。
表面上看,這是一場「去英偉達化」的運動。
但如果只看到這一層,就太淺了。
真正的問題是:自動駕駛模型本身,已經開始變了。
從 CNN,到 Transformer,再到 DiT 與世界模型,模型範式在切換,而舊時代的芯片邏輯,未必還能接住下一代自動駕駛。
這纔是車企重新造芯片的真正原因。
自研還是外採,表面是商業決策,骨子里是對技術路線的判斷。
自研或外採取決於車廠對自動駕駛路線的判斷,芯片研發周期比較長。
從完整定義設計目標到芯片上量產車型,中間需要 2-4 年。海外廠家更長,可能是 3-5 年。
這意味着芯片廠家在今天落筆,押注的其實是 5-8 年后的技術走向。
預測錯了,要麼芯片生命周期大幅縮短,要麼乾脆沒人用。
做汽車數字類芯片,賭性確實很大。
車企自研芯片,某種意義上是在説:我比供應商更清楚自己五年后要跑什麼模型。
5 納米甚至 3 納米,一次性工程費用加對外採購 IP 高達數億人民幣。一次性工程費用加 IP 授權,動輒數億人民幣。
出貨量不夠,賬面上一定是虧的。但這筆錢可以進整體研發成本,還能拉高市值、強化科技品牌。
賬算到最后,商業邏輯是通的。
技術門檻方面,隨着 IP 生態成熟、EDA 工具鏈完善,以及索喜這類專門服務車廠定製芯片的中間商涌現,工程難度正在快速下降。
真正難的部分,已經轉移到軟件棧、編譯器和長期模型適配上,這恰恰是芯片供應商最難替你定製的部分。
先搞清楚現在的自動駕駛,在跑什麼模型。
目前自動駕駛路線有三條。
一是分段端到端,大多數廠家的選擇,典型代表是 Uni-AD,總參數一般不超過 5 億。
二是VLA 路線,視覺-語言-行動模型,加擴散動作專家或 MLP,融合世界模型提高推理效率,VLA 通常是 MoE 架構,參數一般在 20—70 億。
三是世界模型加擴散動作專家,目前還沒有量產上車的案例,要等的時間可能比想象中更長。
這三條路線對芯片的需求截然不同。
而且沒有哪家廠家只押一條路。
三條線都在做,都在看,沒人敢掉隊。
這里有一個流傳很廣的誤區:只要 TOPS 數值夠大,就能應對所有模型。
CNN 時代確實如此,算力堆上去,性能就上去。但今天是 CNN+Transformer 的混合時代,明天可能是 Transformer+DiT 的時代。
5000TOPS 的芯片,跑 DiT 架構,很可能打不過 300TOPS 的對手。
決定勝負的,是存儲帶寬、編排能力、緊耦合分級內存、SFU、可編程向量算力。哪一個,都比 TOPS 數字重要。
TOPS 崇拜,正在失效。
世界模型的核心是 DiT 架構
第三條路線是去年才真正成形的。它的核心架構,叫DiT。
世界模型的典型架構,上圖來自論文 Fast-WAM: Do World Action Models Need Test-time Future Imagination?
世界模型為什麼特殊?
因為 DiT 對時序信息有天然的親和力。它不只是個「更好的圖像生成器」,而是為視頻、動畫乃至自動駕駛和具身智能量身打造的架構。
無論聯合建模、先想象后執行,還是「訓練時建模、推理時直出動作」,無論哪一種世界模型範式,DiT 都是核心。
問題在於:市面上根本沒有為 DiT 推理專門設計的芯片。
擴散模型推理流程
擴散模型的推理流程異常複雜。
傳統高算力芯片只能應對稠密張量矩陣乘法,也就是去噪循環內部的計算。
其余的不規則計算、向量編碼、內存敏感的激活,要麼依賴標量 CPU,要麼靠向量算法,對芯片設計構成嚴峻考驗。
如果一家車企決心沿世界模型路線走,又不想等市場上出現合適的芯片,大概率只有一條路:自研。
有一個細節值得單獨拿出來説。
無論哪條技術路線,存儲帶寬都是越寬越好。
VLM(視覺 語言模 型)最為典型——解碼階段是 VLM 的主要耗時,而解碼速度完全由存儲帶寬決定。
換句話説,VLM 的整體性能,本質上是存儲帶寬的性能。
這也是為什麼特斯拉 AI4/AI5 不惜血本拓寬存儲帶寬。他們很清楚,真正的瓶頸在哪里。
自迴歸 (AR) 架構的解碼階段是內存綁定的。算力再高,也無法加速。系統性能完全取決於存儲帶寬和調度延迟,這個階段甚至有些小模型在 CPU 上跑比 GPU 還快。
擴散模型則是另一種困境:它高度依賴 Batch size ( 併發批處理數量) 。Batch 越大,矩陣乘法單元利用率越高。但 Batch 一大,去噪循環外的不規則運算和調度消耗就會暴漲,整體延迟大幅增加。
對延迟敏感的自動駕駛場景,Batch 通常只能設 1-4,很少超過 8。結果是:GPU 賬面算力驚人,實際大量空轉。
自動駕駛芯片的核心是 AI 加速器。而 AI 加速器的路線之爭,本質上是三種計算哲學的對撞。
按照單個矩陣乘 ALU 的 M×N×K 維度,目前分三個流派:大核心、中核心、小核心。
(1)大核心:極致效率主義
大核心的典型是脈動陣列架構。
谷歌 TPU v5/v6,256×256,每個核心有 65536 個 MAC 陣列。數據只流入一次,沿脈衝向前傳,SRAM 讀取壓力遠低於小核方案。跑 LLM/VLM 這種形狀高度規整、batch 極大的模型,能效比和性價比遙遙領先。
典型代表:谷歌 TPU、AWS Trainium、Groq LPU、英特爾 Gaudi、特斯拉 HW3.0、蔚來神璣、小鵬圖靈、芯擎、高通 AI100。
TPU v5 每陣列頻率 1.5GHz,單核算力約 197TOPS;v6 升級為 Tile 脈動,同頻率下單核算力達 918TOPS。每條指令驅動 65536 次 MAC,稠密矩陣乘法上的效率壓倒性領先。
代價也很明顯。大核心更像一條超大型流水線——數據形狀足夠規整時效率極高,一旦模型結構變得稀疏、動態或非規則,流水線就開始空轉。
大核心的缺點也很明顯,首先是對數據流形狀或者説矩陣形狀高度敏感,256*256 的陣列要求 M\N\K 都必須是 256 的整數倍,如果不是整數倍,就需要 tile 切分、padding、layout 變換、雙緩衝、collective。
256×256 的陣列要求 M/N/K 都必須是 256 的整數倍,稍有偏差就需要大量預處理工序。
編譯器做得差,計算利用率低到 10% 甚至 1% 不罕見;做得好,也很難超過 40%。跑一個百億參數的模型和一個千萬參數的模型,用時可能一樣。軟
件團隊規模是硬件的十倍以上——這條路,養人成本極高,虧損幾乎不可避免。
另一個硬傷:
非結構化稀疏完全無效。自動駕駛視覺模型是典型的稀疏模型,而大核心是典型的稠密引擎。
谷歌 TPU v6e 為此單獨增加了稀疏張量核心,但這必然增加軟件複雜度和調度時間。
(2)小核心:極致靈活主義
小核心實際就是多核 CPU。
小核心的極端代表是特斯拉 Dojo——實質上是 384 核心 CPU 的集合體,每核有獨立分支、循環、PC 和本地 SRAM。
它的天然優勢:對任何形狀的數據都能輕松處理。
batch=1 也能保持很高的利用率;天然適配 decode、MoE expert 路由、可變長 KV cache;原生支持非結構化細粒度稀疏。
Cerebras 的報告顯示,75% 稀疏度下相對稠密基線可達約 2.5 倍實際加速——這在大核心架構上根本做不到。
代價同樣明顯。每個小核都要付出獨立取指/譯碼/寄存器堆/控制邏輯的開銷。同樣工藝同樣算力下,純小核設計比脈動陣列多付 2—5 倍面積,也就是同樣算力,成本要貴 2—5 倍。
這個數字,足以讓大多數廠家望而卻步。所以真正走小核路線的,鳳毛麟角。
(3)中核心:平衡主義
英偉達選擇了第三條路——既不極致,但也從不死路。
GPU 把矩陣單元做在 16×16,數量比大核多、遠少於 CUDA core,一顆 H100 上中核 Tensor Core 負責稠密算力、CUDA 小核負責控制流和稀疏兩套並存。warp 調度隱藏 shape 敏感性,不對齊的部分交給 CUDA core 補齊。
這正是英偉達真正強的地方,從來不是算力本身,而是在效率、靈活性與生態之間找到了某種平衡。
這也是為什麼,即使所有車企都在喊「去英偉達化」,真正完全脱離英偉達的公司依舊極少。
典型代表:英偉達、AMD、華為(910/810/610 從一開始就是 16×16×16)、理想、Momenta。特斯拉 AI5 大概率也走中核路線。
高通的 NPU 是這套邏輯的另一個註腳。
從 SA8155 的 8TOPS 到 SA8397P/SA8797 的 80TOPS,矩陣單元數量一直沒有變化,標量和矢量線程數量卻在持續增加——應對越來越複雜的推理場景,高通選擇的是往小核方向加籌碼。
三條路線,各有死穴。
對於 VLM 這種大模型,GEMM 密度很高,矩陣尺寸大,大核心幾乎完美,模型越大越完美。
但對於 DiT 和擴散模型,串行屬性明顯,某些部分 GEMM 密度很高,其余都是低密度,更適合小核心。而小核心的性價比,很難讓商業決策者滿意。
英偉達的中核心,在 GEMM 和非規則計算之間走鋼絲,但應對 DiT 和擴散模型時,依然有力不從心的地方。
車載場景的特殊性還在於:不大可能跑百億參數以上的大模型,存儲成本撐不住。中核心加小核心的組合,或許是比較務實的應對方式。
小米的玄戒做汽車座艙芯片,技術上沒有障礙;吉利、比亞迪、Momenta 的自研芯片項目,大概率也在推進中。
唯有傳統車廠,依然秉持能外採絕不自研的邏輯。
這無可厚非,只是在模型範式加速切換的當下,這個原則面臨越來越大的壓力。
自動駕駛芯片真正難的,從來不是把芯片造出來。
而是今天就要押中,五年后 AI 會長成什麼樣子。
本文來自微信公眾號「汽車之心」(ID:Auto-Bit),作者:周彥武,36氪經授權發佈。