2024年，自動駕駛會迎來質的改變嗎？

2024-05-11 13:53

89.2萬人次，這是今年北京國際汽車展覽會（以下簡稱「北京車展」）的觀眾人數，而上一屆北京車展的觀眾人數是53萬人次。

相比於前幾屆車展燃油車和新能源汽車大戰的場景，今年北京車展完全沒有能源類型的競爭，幾乎所有車企都在推出新能源車型。

大模型是本次車展的一個重要主題，很多廠商都把大模型上車作為一個宣傳亮點。而自從特斯拉開啟了端到端自動駕駛潮流，端到端已經成為自動駕駛領域必須攻克的高地。

元戎啟行、商湯科技、小鵬汽車都在車展上展示了其最新的端到端自動（智能）駕駛方案。5月20日，小鵬汽車的AI天璣系統將全量推送覆蓋小鵬 X9、G6 、G9 、P7i四款車型所有的Pro和Max版本。

小鵬汽車董事長何小鵬在北京車展期間接受媒體羣訪時表示，原先智能駕駛需要大量代碼制定規則，即使達到一萬行，可能也只能實現50%的規則能力。「2025年智能駕駛會發生質的改變。現在看甚至提前一年，因為技術比我想象中更快。」何小鵬説，「隨着端到端技術的出現，我們僅需投入數十億（元）的訓練費用，便可以在一年內大幅提升產品性能，這將極大加快自動駕駛技術在實際應用中的普及速度。」

但也有人把特斯拉的端到端大模型方案奉為圭臬，認為必須按照特斯拉的方案，即傳感器數據和車輛狀態信息輸入單一大模型后直接輸出車輛控制指令，纔是真正的端到端自動駕駛方案。

這種爭議在機器人領域也有，比如人形機器人Figure 01宣稱的「端到端神經網絡」就引發了討論。

出門問問創始人、CEO李志飛認為，原理上，Figure看起來類似於Google在2023年3月發佈的PaLM-E和RT-1的pipeline組合，而不是Google於2023年7月發佈的端到端模型RT-2。

「'端到端'這個事，不同人的理解不一樣。」北京大學計算機學院助理教授、博士生導師董豪告訴「甲子光年」，「有的人認為RT-2這種直接輸出action的才叫'端到端'，但是那種方法缺點很明顯，調用大模型的頻率比較高，算力消耗特別大，而且很難做到比較高的決策速度。Figure説的‘端到端’，不是指直接輸出action，而是由高頻的模型來輸出action。」

那麼端到端自動駕駛技術是什麼？端到端大模型是否是自動駕駛*解呢？本文，「甲子智庫」將帶來大模型在自動駕駛領域的應用和發展方向分析。

1.自動駕駛技術的迭代與大模型應用

縱觀自動駕駛技術的發展歷程，人工智能的不斷突破顯著提升了自動駕駛的感知性能。從卷積神經網絡（CNN）的引入，到循環神經網絡（RNN）的應用，再到結合鳥瞰圖（BEV）與Transformer模型的創新，每一次的技術進步都在增強自動駕駛的精確度與安全性。

特別是基於Transformer的BEV感知模型，已經獲得了業界的廣泛認可。大模型技術不僅加速了自動駕駛技術的演進，也為城市導航輔助系統（NOA）的普及和深入應用打下了堅實的基礎，極大提高了智能駕駛產品的用户滿意度。

當前主流自動駕駛方案的核心在於「感知-決策規劃-控制」的模塊化結構，其中「感知」是前置模塊且至關重要。它確保車輛能夠實時、準確地掌握周圍環境，是實現安全無人駕駛的關鍵前提。

自動駕駛感知技術的發展已經經歷了幾個關鍵階段：

卷積神經網絡（CNN）：憑藉在圖像識別上的*性能，CNN成為自動駕駛感知的起點，可以有效整合圖像與雷達數據，提升對道路和交通元素的識別能力；

循環神經網絡（RNN）與生成對抗網絡（GAN）：RNN擅長處理時間序列數據，而GAN能創造逼真的合成數據，兩者結合，增強了自動駕駛系統在行為預測和路徑規劃方面的能力；

鳥瞰圖（BEV）：BEV通過將三維數據投影到二維平面，提供了清晰的環境視圖，優化了路徑規劃和避障決策；

BEV與Transformer的結合：BEV+Transformer大模型結合了Transformer的序列數據處理能力和BEV的環境概覽，實現了更精細的環境理解和更全面的預測能力。此外，特斯拉在2023年進一步推出了佔用網絡模型，進一步提升了對三維環境的感知精度。

基於Transformer的BEV感知大模型已經成為自動駕駛領域的主流技術趨勢，它推動了「重感知、輕地圖」的技術路徑，並加速了城市導航輔助系統（NOA）的量產與規模化應用，進而實現「全國都能開」。AI大模型無疑是自動駕駛行業發展的有力助推器。

事實上，在OpenAI推出ChatGPT之前，Transformer架構就已在自動駕駛感知領域得到推廣與使用，並隨着數據量增長與穩定性提升實現了相關產品的規模化部署。

整體而言，自動駕駛中大模型技術的運用可分為雲端和車端兩大類：

雲端：

自動數據標註：通過大模型的自監督預訓練，結合少量人工微調，實現視頻數據的自動標註，提升標註精度，減少人工複審，大幅提高效率。

數據挖掘：利用大模型的泛化能力，挖掘長尾數據，如CLIP模型通過文本描述進行圖像檢索。

知識蒸餾：大模型學習豐富特徵后，通過知識蒸餾技術傳遞給小模型，提升后者性能與準確度。

場景重建與數據生成：採用NeRF技術進行場景隱式存儲和渲染監督學習，實現場景重建和生成高真實感數據。

車端：

模型合併：整合處理各類子任務的小模型為一個綜合性「大模型」，通過聯合推理提升感知算法的準確度和響應速度。

物體檢測：運用大模型進行固定物體檢測，如車道線、交通燈等，其檢測性能不受外部條件如天氣、時間變化的影響。

車道拓撲預測：基於BEV的feature map，運用自迴歸編解碼網絡將BEV特徵解碼為結構化拓撲點序列，實現車道拓撲的預測。

在數據驅動的新時代背景下，自動駕駛技術正在經歷一場深刻的技術變革。大模型技術的應用已經從雲端向車端延伸，涵蓋了自動數據標註、數據挖掘、目標感知乃至車道拓撲預測等關鍵領域。這些應用凸顯了大模型技術在自動駕駛領域的關鍵地位，並展示了其對行業的深遠影響。

在主機廠與自動駕駛廠商對感知模型的開發與訓練中，Transformer大模型早已不是新客，並已經開始在感知模塊之外的其他領域嘗試使用。隨着大模型技術的進步與模型訓練方式的進一步革新，端到端大模型為自動駕駛技術的進一步發展提供了新的思路。

2.端到端大模型謀劃上車

繼BEV+Transformer與OCC佔用網絡之后，端到端自動駕駛技術開始受到廣泛關注。特斯拉作為行業的先鋒，其推出的FSD V12系統便是端到端自動駕駛技術的典範。那麼端到端自動駕駛和模塊化自動駕駛有什麼不同？

從高精地圖到無圖的「全國都能開」，從高速NOA到城區NOA，AI大模型的應用已經幫助行業L2++級別的自動駕駛功能量產上車並投入規模化使用，不斷衝擊着L3的界限。但如何從L2++真的跨越到L3/L4，始終是橫亙在自動駕駛從業者面前的難題。

在ChatGPT的成功之后，由「大算力+大模型+大數據」驅動創造的「智能涌現」，為自動駕駛帶來了新的路徑選擇。

現階段已經上車的智能駕駛產品，絕大多數採用了「感知-規劃-控制」串聯的模塊化架構。攝像頭、雷達、IMU、激光雷達等傳感器採集到的信息先交由感知模塊進行空間感知計算；感知模型輸出結果后，再交由基於規則的規劃模塊，進行相應的決策與路徑規劃；控制模塊再根據決策規劃的結果，最終生成車輛轉向角、制動力、油門/電門等動作。

在當前的自動駕駛技術發展中，深度學習算法與大模型仍主要集中在提升「感知」模塊的性能。出於對行車安全的考量，決策規劃模塊目前仍然依賴於基於規則的方法。然而，這種基於規則的決策模型在應對城市複雜交通環境和不斷出現的極端情況（corner case）時仍顯不足，這導致高級別的自動駕駛在實際運行中難以保證完全不需要人工干預。

而端到端架構則有所不同，它比模塊化的系統架構更加簡潔。狹義的端到端模型並不拆分感知、規劃、控制等模塊。相反地，端到端模型是一體化的，傳感器信號作為模型的輸入，輸出則直接用於車輛執行器的加減速與轉向的指令。在足量優質數據與充沛算力的加持下，進行統一訓練。隨着自動駕駛領域數據量的持續增長，為訓練更為先進的決策模型提供了條件，使得端到端的自動駕駛模型成為可能，為未來徹底解決人工接管問題打好基礎。

特斯拉今年3月在北美地區全面推送FSD Beta V12.3版本，此次升級的*亮點是引入了特斯拉CEO埃隆·馬斯克（Elon Musk）引以為傲的「端到端神經網絡」技術，這一變革被譽為「改變遊戲規則的技術」。

特斯拉介紹，FSD Beta V12.3將城市街道駕駛堆棧升級為一個在數百萬視頻片段上訓練的端到端神經網絡，取代了超過30萬行的顯式C++代碼。這意味着汽車操控邏輯已經實現交由神經網絡處理，而不是由程序員編寫的代碼。

國內一些*的企業也在跟進這一技術的研發與部署。剛剛結束的北京國際汽車展覽會也印證了這一點：商湯科技、元戎啟行等國內AI企業的端到端智能駕駛量產方案在北京車展亮相，「端到端大模型上車」成為熱議話題。元戎啟行展出了基於端到端模型的量產智能駕駛方案DeepRoute IO，商湯絕影也在現場展示了面向量產的端到端自動駕駛解決方案 UniAD (Unified Autonomous Driving) 的道路測試表現。

從開發的角度來看，「端到端」概念的引入是革命性的。主流的規劃方案仍然基於手寫規則，高度依賴提前設計的先驗規則與傳統算法的優劣，遇到bad case時需要持續不斷添加規則，以打補丁的方式實現模型調優。

相比之下，沒有進行任務拆分的端到端自動駕駛則摒棄了傳統自動駕駛中感知、規劃、控制各大模塊及下邊的各類子任務，能夠實現輸入傳感器數據可直接輸出車輛動作控制。

整體來看，端到端的優點包括但不限於：

數據驅動：用於模型訓練的數據規模與數據質量是影響最終產品性能的主要因子，僅需要少量的人工編碼。通過擴大優質訓練數據的規模，可以不斷提升系統的能力上限，並通過數據驅動的方式不斷響應長尾場景下的數據回傳，更新模型參數，大幅降低甚至完全消除對人工編碼的需求。

整體*：端到端旨在服務整體目標，而不是每個模塊單獨一個目標，提煉並壓縮優質駕駛數據的經驗，實現「老司機」般絲滑的駕駛體驗。

消除誤差：一體化的模型結構可以減少各模塊之間信息傳遞的延迟，且全棧神經網絡的上下層之間可以傳遞全量的信息，消除累計誤差，讓自動駕駛系統反應更加敏捷和準確。

3.端到端大模型面臨的挑戰

端到端自動駕駛系統的優勢日益明顯，其藉助大模型技術的深入應用，為自動駕駛技術的進一步發展提供了一條高效率的途徑。然而，端到端是否成為自動駕駛未來發展的*道路，目前還存在一些疑問。

當前端到端自動駕駛系統的開發和實施正面臨一系列挑戰。

首先，端到端大模型的解釋性不足，這對於將安全性放在首位的自動駕駛領域是一個亟待解決的問題。當端到端系統出現問題時，它不像模塊化系統那樣能夠逐步分析中間結果，從而定位問題源頭。在文本和圖像生成等場景中，大模型的容錯成本較低，但在自動駕駛領域，一旦出錯，代價卻極為昂貴。這成爲了端到端系統通過驗證測試並實現產業化的關鍵障礙。

其次，端到端自動駕駛大模型，類似於大語言模型，其核心在於對海量優質駕駛視頻片段的學習和提煉，這需要極大的高質量數據集。

以特斯拉的FSD V12系統為例，它需要神經網絡學習數百萬的視頻片段。這不僅涉及到數據採集的挑戰，還包括從海量數據中篩選和清洗出高質量數據的難題。FSD是特斯拉的選裝功能，但由於價格過高，FSD的選裝率常年在低位徘徊。即便在比例較高的美國，FSD的選裝率也不足20%。爲了加強FSD的吸引力，幫助特斯拉獲得更多訓練數據，特斯拉FSD的美國售價已經快速「腰斬」：2023年9月，FSD套餐價格從15000美元降至12000美元，又在今年4月降至8000美元；月度訂閲價格也在4月從199美元/月降至99美元/月。

而在北京車展上，極越宣佈將於2026年量產上車英偉達1000TFLOPS高性能計算平臺Thor，滿足未來全場景端到端的智駕需求，「為用户帶來安全、先進的智能移動出行體驗」。而對於端到端大模型的數據問題，極越CEO夏一平今年3月曾對「甲子光年」表示，大模型訓練比較核心的東西不是數據比誰多，而是比誰有更多的高質量數據，「數據質量很重要。數據質量不好，訓練出的模型可能就是有缺陷的。」

最后，大模型的訓練需要巨大的投資，包括高質量視頻數據的採集和算力資源的大幅增加。埃隆·馬斯克曾提出，到2024年底，特斯拉的訓練算力將達到100EFLOPS，這是一個令人震驚的目標。對於國內企業來説，算力資源的積累問題將變得更加突出。

儘管如此，端到端技術以其創新的理念，為實現完全無人駕駛的目標提供了新的可能性。隨着技術的不斷進步和行業的共同努力，這些挑戰有望被逐一克服。特斯拉計劃推出的robotaxi產品，顯示了其在自動駕駛領域的雄心壯志，預示着技術正朝着更高級的階段邁進。同時，商湯科技、元戎啟行、毫末智行等國內企業的積極參與，也展現了中國在自動駕駛技術領域的潛力和決心。

「2024年誰還沒落地‘智駕全國都能開’，誰就會掉隊。」這是夏一平今年3月受訪時的表達的觀點。

不過，何小鵬在北京車展期間談到端到端技術應用時也很明確地指出：「目前，許多企業聲稱他們能在全國範圍內提供服務，但實際上他們仍然依賴於高精地圖，看起來速度快但高精地圖目前僅覆蓋全國公路的不到1%。當車輛從A路開到B路時，如果沒有高精地圖的支持，服務就會立即中斷。只有完全擺脫對高精地圖的依賴，才能在雜場景下得到應用。」

如同今年年初汽車行業的價格戰一樣，接下來，主機廠及供應商在自動（智能）駕駛方面的競爭勢必會更加激烈。

不要忘了，馬斯克前段時間來了北京，特斯拉FSD在中國落地或許就在不遠的將來。

【本文由投資界合作伙伴微信公眾號：甲子光年授權發佈，本平臺僅提供信息存儲服務。】如有任何疑問，請聯繫（editor@zero2ipo.com.cn）投資界處理。

2024年，自動駕駛會迎來質的改變嗎？

推薦文章

港股周報 | 中國大模型「春節檔」打響！智譜周漲超138%；鉅虧超230億！美團周內重挫超10%

一周財經日曆 | 港美股迎「春節+總統日」雙假期！萬億零售巨頭沃爾瑪將發財報

一周IPO | 賺錢效應持續火熱！年內24只上市新股「0」破發；「圖模融合第一股」海致科技首日飆漲逾242%

從軟件到房地產，美國多板塊陷入AI恐慌拋售潮

Meta計劃為智能眼鏡添加人臉識別技術

危機四伏，市場卻似乎毫不在意

美股機會日報 | 降息預期升溫！美國1月CPI年率創去年5月來新低；淨利、指引雙超預期！應用材料盤前漲超10%

財報前瞻 | 英偉達Q4財報放榜在即！高盛、瑞銀預計將大超預期，兩大關鍵催化將帶來意外驚喜？