理想汽車推送OTA 8.0版本，李想稱公司輔助駕駛開始「全面領先」，VLA優於世界模型？

2025-09-12 18:04

「理想汽車的輔助駕駛和智能座艙，從‘局部領先’進入‘全面領先’。」在理想汽車於近日推送OTA8.0版本車機系統后，理想汽車董事長李想在社交媒體上如此表示。

近日，理想汽車OTA8.0版本車機系統正式開啟推送，輔助駕駛、智能座艙和智能電動迎來升級。其中，理想汽車自研的新一代輔助駕駛技術架構——VLA（Vision-Language-Action Model，視覺語言行動模型）司機大模型向理想MEGA和理想L系列AD Max車型全量推送。

李想表示，VLA司機大模型是理想汽車的第三代輔助駕駛技術（第一代是規則，第二代是端到端，第三代是VLA），而VLA之所以被命名為司機大模型，是因為它「看得懂道路狀況，聽得懂人類指揮，記得住車主習慣」，更像一個真人版的私人司機。

「推送的VLA為‘殘血版’」

在推送VLA司機大模型的同時，李想也坦言，「因為種種原因，今天全量推送的VLA還是‘殘血版’（一個廣受好評的功能暫時沒推）」。值得一提的是，此前有消息稱，理想汽車的VLA遠程召喚功能被舉報，理想汽車被迫暫停這項功能的推送。

對此，理想汽車方面告訴《每日經濟新聞》記者：「自發布VLA輔助駕駛技術架構以來，我們受到了行業及各界的廣泛關注和討論，公司深感責任重大，始終以審慎負責的態度推進各項新功能的上線進程。」

「9月10日開始，VLA司機大模型及相關功能將陸續推送到所有配備AD Max高級輔助駕駛系統的理想L系列和MEGA車型上，各項輔助駕駛功能包括輔助泊車都將得到提升。具體功能我們將依據相關法律法規推送。」理想汽車方面補充道。

在9月11日，李想在社交媒體發文稱，現在網絡上對9月10日開始推送的OTA8.0版本的理想VLA司機大模型出現「殘血版」原因的分析，大多是不實信息。

據理想汽車方面介紹，憑藉VLA司機大模型對環境、導航的理解和推理能力，輔助駕駛功能在通過主輔路切換、高架匝道等複雜路口時，選路更加精準。此外，VLA司機大模型具備車速記憶能力，能夠記住用户在特定道路的車速偏好，用户只需要通過對話就可以設定車速，未來再次通過該路段時，模型將自動調用記憶並調整為記憶過的車速。

理想汽車方面還表示，VLA泊車則擁有自主尋路、漫遊找車位、導航終點靠邊停車等功能，實現任意車位到任意車位的輔助駕駛體驗。

VLA可被視為端到端的「智能增強版」

除理想汽車外，元戎啟行、小鵬汽車等也在VLA領域進行佈局。元戎啟行於8月26日正式發佈自研VLA大模型，推出名為DeepRoute IO 2.0的新平臺，確定將在5款車型上使用；9月4日，小鵬汽車宣佈，小鵬G7 Ultra開啟首次OTA推送，其中就包含融合全場景VLA大模型的導航輔助駕駛功能。多家車企競相佈局，正是希望借這一模型之力，打通端到端方案的瓶頸。

值得一提的是，傳統規則與端到端模型都卡在同一道「坎」：一旦遇到訓練集里沒見過的場景，系統就「發懵」，只能事后打補丁。但現實路況千變萬化，沒有辦法在數據中窮舉所有的可能，因此長尾場景一直是自動駕駛最大的挑戰。「VLA能夠更好地解決上述問題。」清華大學車輛與運載學院助理研究員顏宏偉認為，VLA模型的主要優勢在於模型一體化及更強的泛化性，即應對複雜場景的能力。

據悉，VLA相較端到端具有諸多優勢，可被視為端到端的「智能增強版」。VLA中的V指的是感知，A是執行，中間的L則是語言模型（Language Model）。V負責感知環境，A負責動作執行，中間的L的作用類似於「中臺」，將V的內容，也就是感知的內容轉譯成A執行的規劃和決策。「VLA是多模態大模型驅動的智能體架構，其核心突破在於引入思維鏈，通過語言模型實現對環境理解與決策推理的可解釋性。」顏宏偉説。

元戎啟行CEO周光認為：「VLA模型融合了語言模型，具備強大的思維鏈能力，能擺脫傳統端到端模型的黑盒難題，並將信息串聯、分析，從而推理出因果關係。此外，它天然集成海量知識庫，泛化能力更強，能夠更好地適應複雜多變的真實道路環境。」

理想汽車自動駕駛研發負責人郎咸朋也表示：「（VLA）真正發揮作用的是背后推理的長思維鏈。如果沒有強大的L，再好的V和A都無法發揮出來。這跟人與動物的區別很相似。論視覺能力人比不過鷹，論行動速度比不過獵豹，但人之所以能夠稱霸地球，靠的是強大的認知和理解能力。而這個認知和理解能力就來自於人類特有的語言能力。」

此外，郎咸朋還強調，「L」指代語言學習能力，它並不是簡單地用語言做顯示的文字推理，而是用語言提供的數據學習隱式的邏輯推理。

「當語言模型與輔助駕駛相遇，一切都變得簡單了。儘管VLA模型的表現目前處於持續提升階段，但VLA模型的下限已超過端到端上限，未來會越來越好。」周光還表示。

VLA與世界模型不衝突

有企業重點佈局VLA領域，有企業則不認同該技術路徑。比如，華為智能汽車解決方案BU CEO靳玉志就表示：「我們不會走向VLA的路徑。這樣的路徑看似取巧，其實並不是走向真正自動駕駛的路徑。」

「華為更看重WA（世界行為模型），也就是World Action，中間省掉Language這個環節……直接通過Vision這樣的信息輸入控車，而不是把各種各樣的信息轉成語言，再通過語言大模型來控制車。」靳玉志進一步解釋稱，華為乾崑自研的WEWA架構包含雲端的世界引擎（WE）與車端的世界行為模型（WA）。其中，WE負責海量數據訓練與場景生成，WA則實現車端的實時環境推理與擬人化決策。

靳玉志提到的這種「世界模型」源自人類對環境的認知機制，指的是AI系統通過感知數據構建一個對物理世界的內部模擬，從而具備預測、推理和生成合理行為鏈的能力。在輔助駕駛中，它不再只是「看見」世界，而是理解世界，預測未來可能發生的情況，並提前做出決策。例如，它不僅能識別前方有一輛自行車，還能預測它是否會突然變道，從而提前減速或避讓。除華為外，蔚來、商湯等企業也都在此技術路線上進行佈局。

需要注意的是，儘管不同企業對於VLA和世界模型兩種技術「各執一詞」，但兩者並不矛盾，VLA路線也結合了部分與駕駛數據相關的世界模型。例如，李想提出VLA可以拆解為預訓練、后訓練和強化學習三個層面。強化學習中最重要的一步就是在世界模型里閉環學習，引入舒適度、碰撞、交通規則等規則來打磨、反饋，讓VLA比人類開得更好。

此外，世界模型雖然更強調「海量使用雲端模擬的數據、來讓大模型‘理解’世界而學會駕駛」，但其最底層的世界模型仍需要Transformer技術驅動，而Transformer是VLA的底層骨干網絡。華為此前在和浙大、港科大的相關科研成果中，多次提到這一點。

「我瞭解大部分公司兩種技術都用。世界模型和VLA模型不是一個維度的東西，而是交錯的。我可以有訓練，比如説基於各種複雜輸入的事件模型的理念，所以這兩個東西不矛盾、不衝突。」小馬智行CTO樓天城表示，「我認為想要做百輛無人車以上，世界模型最關鍵。對其他公司（而言），可能做VLA模型賣車最關鍵。大家選擇不同的路線是因為目標不同。」

對於輔助駕駛底層技術的演進，千里科技董事長印奇認為，智駕行業在3年內將迎來技術收斂。長安汽車智能駕駛高級總工程師則表示，在未來2~3年內，輔助駕駛的技術架構還將迎來1至2輪迭代，到2028年有望收斂至相對穩定的狀態。

理想汽車推送OTA 8.0版本，李想稱公司輔助駕駛開始「全面領先」，VLA優於世界模型？

推薦文章

美股機會日報 | 凌晨3點！美聯儲將公佈1月貨幣政策會議紀要，納指期貨漲近0.5%；13F大曝光！巴菲特連續三季減持蘋果

美股機會日報 | 阿里發佈千問3.5！性能媲美Gemini 3；馬斯克稱Cybercab將於4月開始生產

港股周報 | 中國大模型「春節檔」打響！智譜周漲超138%；鉅虧超230億！美團周內重挫超10%

一周財經日曆 | 港美股迎「春節+總統日」雙假期！萬億零售巨頭沃爾瑪將發財報

從軟件到房地產，美國多板塊陷入AI恐慌拋售潮

Meta計劃為智能眼鏡添加人臉識別技術

危機四伏，市場卻似乎毫不在意

財報前瞻 | 英偉達Q4財報放榜在即！高盛、瑞銀預計將大超預期，兩大關鍵催化將帶來意外驚喜？