熱門資訊> 正文

世界模型來了，舊的自動駕駛芯片開始失效

2026-05-25 09:34

過去幾年，汽車行業有一個越來越明顯的變化：車企開始親自下場造芯片。

特斯拉有 FSD 已迭代至第五代；蔚來推出神璣 NX9031；小鵬自研 AI 圖靈芯片；理想造了馬赫 M100；比亞迪、吉利、Momenta 也被頻繁點名。

表面上看，這是一場「去英偉達化」的運動。

但如果只看到這一層，就太淺了。

真正的問題是：自動駕駛模型本身，已經開始變了。

從 CNN，到 Transformer，再到 DiT 與世界模型，模型範式在切換，而舊時代的芯片邏輯，未必還能接住下一代自動駕駛。

這纔是車企重新造芯片的真正原因。

01 不是省錢，是搶控制權

自研還是外採，表面是商業決策，骨子里是對技術路線的判斷。

自研或外採取決於車廠對自動駕駛路線的判斷，芯片研發周期比較長。

從完整定義設計目標到芯片上量產車型，中間需要 2-4 年。海外廠家更長，可能是 3-5 年。

這意味着芯片廠家在今天落筆，押注的其實是 5-8 年后的技術走向。

預測錯了，要麼芯片生命周期大幅縮短，要麼乾脆沒人用。

做汽車數字類芯片，賭性確實很大。

車企自研芯片，某種意義上是在説：我比供應商更清楚自己五年后要跑什麼模型。

5 納米甚至 3 納米，一次性工程費用加對外採購 IP 高達數億人民幣。一次性工程費用加 IP 授權，動輒數億人民幣。

出貨量不夠，賬面上一定是虧的。但這筆錢可以進整體研發成本，還能拉高市值、強化科技品牌。

賬算到最后，商業邏輯是通的。

技術門檻方面，隨着 IP 生態成熟、EDA 工具鏈完善，以及索喜這類專門服務車廠定製芯片的中間商涌現，工程難度正在快速下降。

真正難的部分，已經轉移到軟件棧、編譯器和長期模型適配上，這恰恰是芯片供應商最難替你定製的部分。

02 模型變了，

芯片的邏輯也得變

先搞清楚現在的自動駕駛，在跑什麼模型。

目前自動駕駛路線有三條。

一是分段端到端，大多數廠家的選擇，典型代表是 Uni-AD，總參數一般不超過 5 億。

二是VLA 路線，視覺-語言-行動模型，加擴散動作專家或 MLP，融合世界模型提高推理效率，VLA 通常是 MoE 架構，參數一般在 20—70 億。

三是世界模型加擴散動作專家，目前還沒有量產上車的案例，要等的時間可能比想象中更長。

這三條路線對芯片的需求截然不同。

而且沒有哪家廠家只押一條路。

三條線都在做，都在看，沒人敢掉隊。

這里有一個流傳很廣的誤區：只要 TOPS 數值夠大，就能應對所有模型。

CNN 時代確實如此，算力堆上去，性能就上去。但今天是 CNN+Transformer 的混合時代，明天可能是 Transformer+DiT 的時代。

5000TOPS 的芯片，跑 DiT 架構，很可能打不過 300TOPS 的對手。

決定勝負的，是存儲帶寬、編排能力、緊耦合分級內存、SFU、可編程向量算力。哪一個，都比 TOPS 數字重要。

TOPS 崇拜，正在失效。

世界模型的核心是 DiT 架構

03 世界模型帶來的新麻煩

第三條路線是去年才真正成形的。它的核心架構，叫DiT。

世界模型的典型架構，上圖來自論文 Fast-WAM: Do World Action Models Need Test-time Future Imagination?

世界模型為什麼特殊？

因為 DiT 對時序信息有天然的親和力。它不只是個「更好的圖像生成器」，而是為視頻、動畫乃至自動駕駛和具身智能量身打造的架構。

無論聯合建模、先想象后執行，還是「訓練時建模、推理時直出動作」，無論哪一種世界模型範式，DiT 都是核心。

問題在於：市面上根本沒有為 DiT 推理專門設計的芯片。

擴散模型推理流程

擴散模型的推理流程異常複雜。

傳統高算力芯片只能應對稠密張量矩陣乘法，也就是去噪循環內部的計算。

其余的不規則計算、向量編碼、內存敏感的激活，要麼依賴標量 CPU，要麼靠向量算法，對芯片設計構成嚴峻考驗。

如果一家車企決心沿世界模型路線走，又不想等市場上出現合適的芯片，大概率只有一條路：自研。

04 存儲帶寬，纔是真正的命門

有一個細節值得單獨拿出來説。

無論哪條技術路線，存儲帶寬都是越寬越好。

VLM（視覺語言模型）最為典型——解碼階段是 VLM 的主要耗時，而解碼速度完全由存儲帶寬決定。

換句話説，VLM 的整體性能，本質上是存儲帶寬的性能。

這也是為什麼特斯拉 AI4/AI5 不惜血本拓寬存儲帶寬。他們很清楚，真正的瓶頸在哪里。

自迴歸（AR）架構的解碼階段是內存綁定的。算力再高，也無法加速。系統性能完全取決於存儲帶寬和調度延迟，這個階段甚至有些小模型在 CPU 上跑比 GPU 還快。

擴散模型則是另一種困境：它高度依賴 Batch size （併發批處理數量）。Batch 越大，矩陣乘法單元利用率越高。但 Batch 一大，去噪循環外的不規則運算和調度消耗就會暴漲，整體延迟大幅增加。

對延迟敏感的自動駕駛場景，Batch 通常只能設 1-4，很少超過 8。結果是：GPU 賬面算力驚人，實際大量空轉。

05 大核、中核、小核：

三種計算哲學

自動駕駛芯片的核心是 AI 加速器。而 AI 加速器的路線之爭，本質上是三種計算哲學的對撞。

按照單個矩陣乘 ALU 的 M×N×K 維度，目前分三個流派：大核心、中核心、小核心。

（1）大核心：極致效率主義

大核心的典型是脈動陣列架構。

谷歌 TPU v5/v6，256×256，每個核心有 65536 個 MAC 陣列。數據只流入一次，沿脈衝向前傳，SRAM 讀取壓力遠低於小核方案。跑 LLM/VLM 這種形狀高度規整、batch 極大的模型，能效比和性價比遙遙領先。

典型代表：谷歌 TPU、AWS Trainium、Groq LPU、英特爾 Gaudi、特斯拉 HW3.0、蔚來神璣、小鵬圖靈、芯擎、高通 AI100。

TPU v5 每陣列頻率 1.5GHz，單核算力約 197TOPS；v6 升級為 Tile 脈動，同頻率下單核算力達 918TOPS。每條指令驅動 65536 次 MAC，稠密矩陣乘法上的效率壓倒性領先。

代價也很明顯。大核心更像一條超大型流水線——數據形狀足夠規整時效率極高，一旦模型結構變得稀疏、動態或非規則，流水線就開始空轉。

大核心的缺點也很明顯，首先是對數據流形狀或者説矩陣形狀高度敏感，256*256 的陣列要求 M\N\K 都必須是 256 的整數倍，如果不是整數倍，就需要 tile 切分、padding、layout 變換、雙緩衝、collective。

256×256 的陣列要求 M/N/K 都必須是 256 的整數倍，稍有偏差就需要大量預處理工序。

編譯器做得差，計算利用率低到 10% 甚至 1% 不罕見；做得好，也很難超過 40%。跑一個百億參數的模型和一個千萬參數的模型，用時可能一樣。軟

件團隊規模是硬件的十倍以上——這條路，養人成本極高，虧損幾乎不可避免。

另一個硬傷：

非結構化稀疏完全無效。自動駕駛視覺模型是典型的稀疏模型，而大核心是典型的稠密引擎。

谷歌 TPU v6e 為此單獨增加了稀疏張量核心，但這必然增加軟件複雜度和調度時間。

（2）小核心：極致靈活主義

小核心實際就是多核 CPU。

小核心的極端代表是特斯拉 Dojo——實質上是 384 核心 CPU 的集合體，每核有獨立分支、循環、PC 和本地 SRAM。

它的天然優勢：對任何形狀的數據都能輕松處理。

batch=1 也能保持很高的利用率；天然適配 decode、MoE expert 路由、可變長 KV cache；原生支持非結構化細粒度稀疏。

Cerebras 的報告顯示，75% 稀疏度下相對稠密基線可達約 2.5 倍實際加速——這在大核心架構上根本做不到。

代價同樣明顯。每個小核都要付出獨立取指/譯碼/寄存器堆/控制邏輯的開銷。同樣工藝同樣算力下，純小核設計比脈動陣列多付 2—5 倍面積，也就是同樣算力，成本要貴 2—5 倍。

這個數字，足以讓大多數廠家望而卻步。所以真正走小核路線的，鳳毛麟角。

（3）中核心：平衡主義

英偉達選擇了第三條路——既不極致，但也從不死路。

GPU 把矩陣單元做在 16×16，數量比大核多、遠少於 CUDA core，一顆 H100 上中核 Tensor Core 負責稠密算力、CUDA 小核負責控制流和稀疏兩套並存。warp 調度隱藏 shape 敏感性，不對齊的部分交給 CUDA core 補齊。

這正是英偉達真正強的地方，從來不是算力本身，而是在效率、靈活性與生態之間找到了某種平衡。

這也是為什麼，即使所有車企都在喊「去英偉達化」，真正完全脱離英偉達的公司依舊極少。

典型代表：英偉達、AMD、華為（910/810/610 從一開始就是 16×16×16）、理想、Momenta。特斯拉 AI5 大概率也走中核路線。

高通的 NPU 是這套邏輯的另一個註腳。

從 SA8155 的 8TOPS 到 SA8397P/SA8797 的 80TOPS，矩陣單元數量一直沒有變化，標量和矢量線程數量卻在持續增加——應對越來越複雜的推理場景，高通選擇的是往小核方向加籌碼。

06 沒有完美的芯片，只有押注

三條路線，各有死穴。

對於 VLM 這種大模型，GEMM 密度很高，矩陣尺寸大，大核心幾乎完美，模型越大越完美。

但對於 DiT 和擴散模型，串行屬性明顯，某些部分 GEMM 密度很高，其余都是低密度，更適合小核心。而小核心的性價比，很難讓商業決策者滿意。

英偉達的中核心，在 GEMM 和非規則計算之間走鋼絲，但應對 DiT 和擴散模型時，依然有力不從心的地方。

車載場景的特殊性還在於：不大可能跑百億參數以上的大模型，存儲成本撐不住。中核心加小核心的組合，或許是比較務實的應對方式。

小米的玄戒做汽車座艙芯片，技術上沒有障礙；吉利、比亞迪、Momenta 的自研芯片項目，大概率也在推進中。

唯有傳統車廠，依然秉持能外採絕不自研的邏輯。

這無可厚非，只是在模型範式加速切換的當下，這個原則面臨越來越大的壓力。

自動駕駛芯片真正難的，從來不是把芯片造出來。

而是今天就要押中，五年后 AI 會長成什麼樣子。

本文來自微信公眾號「汽車之心」（ID：Auto-Bit），作者：周彥武，36氪經授權發佈。

世界模型來了，舊的自動駕駛芯片開始失效

01

不是省錢，是搶控制權

02

模型變了，

芯片的邏輯也得變

03

世界模型帶來的新麻煩

04

存儲帶寬，纔是真正的命門

05

大核、中核、小核：

三種計算哲學

06

沒有完美的芯片，只有押注

推薦文章

港股盤中持續拉昇！恆指漲超1.4%，科指漲超3.5%；美團績后漲超8%，騰訊漲超7%，比亞迪股份漲逾5%

華盛早報 | 英偉達殺入PC芯片引爆產業鏈，ARM漲近16%；谷歌擬籌800億美元押注AI！伯克希爾重金入局；美團環比大幅減虧超百億

一圖看懂 | 外賣大戰趨緩！美團Q1調后淨虧49.7億，環比大幅減虧超百億；管理層稱補貼將更審慎

華盛早報 | 今天11點！黃仁勛發表重磅演講，即將攜手微軟發佈新款PC？馬斯克闢謠SpaceX估值下調；美團盤后放榜

一周財經日曆 | AI海嘯來襲！英偉達GTC疊加「亞洲最大AI科技展」ComputeX登場！5月大小非農即將披露；美團財報壓軸出場

港股周報 | 5月收官！華為「韜定律」引爆半導體；從暴漲23%到跳水，智譜上演「天地板」式震盪；泡泡瑪特大漲，段永平日賺10億

美股機會日報 | 戴爾盤前狂飆34%！大幅上調全年業績指引；字節擬採購數百萬顆高通AI ASIC芯片；太空概念突發利空，盤前集體回落

一周IPO | 賺到手軟！四隻新股齊大漲，深演智能首日狂飆超265%；SpaceX、Anthropic再傳大消息！