熱門資訊> 正文
2024-11-13 11:10
專題:2024中國汽車軟件大會
11月7日-8日,2024中國汽車軟件大會在上海嘉定召開。理想汽車智能駕駛技術規劃高級總監文治宇發表演講。
以下內容為現場發言實錄:
感謝韓總,尊敬的各位領導、各位專家、各位嘉賓:
大家下午好!很榮幸能受邀參加今天的論壇,也非常感謝協會對理想汽車的認可,能在今天上午的會議上榮獲優秀創新案例的獎項。今天也藉此機會向大家匯報一下理想汽車在智能駕駛技術創新與應用方面的最新進展。
像剛纔李部長講到的,理想汽車也一向非常關注和緊跟前沿通用人工智能領域的發展。
在過去的一年中,我們快速完成了三代技術棧的跨越式的發展。從去年11月開始,NPN,即先驗神經網絡的方案,讓我們具備了全場景NOA的能力,連通了高速以及城市道路,並且快速在去年年底之前完成了全國百城城市NOA的覆蓋。
在這之后,我們又同樣認識到,以NPN或者依賴先驗信息的方式仍然不能夠快速支撐我們完成全國範圍內所有城市的覆蓋,於是在今年5月又開始了基於下一代技術棧,也就是無圖NOA的早鳥用户推送,將NOA的可用範圍推廣到了全國。
再到今年7月份左右,伴隨着端到端的熱潮,我們又開啟了下一代基於端到端+VLM的NOA的推送,也是全球在智能駕駛方向首創的雙系統架構。這讓智能駕駛的AI能力獲得了再次的提升,也在10月底前率先開始了面向全量Max用户的推送。
如果再來看三個核心的統計數據,也可以看到過去一年的增長已經相當於過去幾年累計值的接近一半的增長。首先是用户的智駕總里程,過去一年中增長了16億公里,當前來到了26億公里。而用户規模也已經跨過了百萬大關達到了102萬,在上個月的時候剛剛完成了百萬下線以及交付的儀式。對於研發來説,另一個很重要的指標,雲端的算力,目前已經來到了5.39E Flops,在一年中增長了2.9E。
剛纔提到了端到端+VLM雙系統,目前最新一代的技術棧。今天也借這個機會向大家分享一下這代技術棧的情況和我們的思考。
雙系統的理論,來源於諾貝爾獎獲得者丹尼爾·卡尼曼的「思考快與慢」,將人類思考的過程抽象爲了這兩個系統。簡單來講,系統一,也就是快系統,它的特點是更多依賴直覺及本能,能夠應對日常生活中超過95%的場景。舉一個例子,其實大部分人在大部分開車的時間也不需要用力去想應該怎麼開車,也能把車開好。
但是人也一定偶爾會遇到一些情況,需要慢下來,或者是停下來想一想后續應該怎麼開。其實這也是運用到了所謂的系統二,或者是慢系統的思考的模式。它的特點是需要一些有意識的分析,慢一些,但是思維的層次更高。
受這套理論的啓發,我們也嘗試在自動駕駛的方向上去建立這樣一套架構,來把它落地下來。
首先來看系統一,就是快系統,我們使用了一個端到端模型,它的特點是能夠完成對環境的快速響應。而在系統二方面,我們使用一個更大規模體量的模型,現在使用的是VLM視覺語言模型,來去行使一個系統二的職能。有了這套模型體量更大的系統,在訓練以及驗證方面,仍然會面臨到一些困難。我們的解決方案是在雲端去構建一個基於世界模型的強化學習以及驗證系統,來完成對於整套系統的高效迭代。
接下來我們打開這三個模型來簡單看一下內部的結構。
首先是系統一,端到端。理想汽車的端到端模型採用了one model,也就是一體化的架構。首先我們的輸入依然採用像攝像頭、激光雷達以及導航這樣的信息,通過主干網絡、特徵網絡,以及編解碼器,最終輸出可以執行的規劃軌跡。
爲了能夠讓我們去做相應的監督訓練,以及同樣爲了能夠給我們的用户在車機上顯示出當前的環境信息,我們將此前常見的感知任務,比如障礙物、道路結構的感知,同樣嘗試去做了實例化,來表徵出來。
這樣的方式給我們帶來了三個優勢,第一是可以讓整個端到端的信息傳遞更加高效,利用模型的中間特徵的方式來做編碼和傳遞,中間不會有明顯信息的損耗,因為中間沒有規則的斷點。
第二,整個端到端之后,全鏈路的推理延迟也會比之前有了很大程度上的優化。
第三,因為整個鏈條都是模型,可以做到完整的可導可訓,也能夠進一步加快基於數據閉環的迭代效率。
再來看系統二,也就是慢系統。系統二的模型體量會更大一些,爲了儘可能讓它擬人,我們採用了擬人的前視兩路相機以及導航信息作為輸入。
經過編碼器,以及經過多模態信息的對齊,輸送給視覺語言模型來去做相關的自迴歸推理。最終形成對於駕駛決策的高層次思考的決策,來閉環反饋給系統一,完成雙系統的協作。
而目前為止,受限於普遍的端側算力瓶頸,以及當前這代主流芯片針對transformer架構的優化問題,將大模型部署在端側仍然是行業里普遍還沒有解決得很好的問題。
理想汽車在這個方向上也做出了一些探索,並和英偉達的同事協作在現有框架下完成了多項突破。我們目前能把2.2B,就是22億參數量的模型成功部署到了車端。
最初完成部署的時候,它的單次推理時延超過了4秒鍾,這在實際應用過程中一定是不可被接受的。經過這些創新性的技術應用以后,我們目前能夠將單次的推理時延降低到0.3秒,大概3.3赫茲,可以做到準實時,併成功將大模型真正應用到了目前日常的智能駕駛的實時響應之中,這也是業界首次將大模型部署到車端智駕量產芯片。
通過端到端和VLM,使得智能駕駛系統擁有了類人的快速響應的能力,也擁有了類人的推理思考的能力。那怎麼訓練和驗證它?也是需要解決的核心問題。
目前,我們的解決方案是提出了一個基於世界模型的訓練以及驗證系統,在虛擬的環境中進行學習和考試。這里用到核心技術有兩個,第一個是基於3D高斯濺射的場景重建的方法,對已知的問題場景,或者説已有的數據集,以3D高斯濺射的方法去對場景進行重建與收集,我們將它稱之為所謂的「錯題集」。
除此之外,智能駕駛也仍然需要去做大量的泛化驗證,來去解決長尾問題的場景。我們的思路是使用擴散模型,基於已有場景去做舉一反三,以生成式的方法,對已有的數據做增強和泛化,比如可以嘗試改變天氣、改變光線、改變路況等等。
將這兩個方向合一,就可以形成一套對於模型的評價體系,或者説一套考題集。
有了這套考題以后,再使用一些工程化的方法,提高自動化運行效率,就形成了這代可以支持高效迭代的驗證方式,也和以往以實車為主的驗證方式相比有了顯著的驗證效率提升。
以上講到這些技術創新點,來源於團隊對研發的持續投入,相關的學術工作也取得了廣泛認可。這里摘錄了一些團隊從2021年至今在學術頂會上的工作發表,也在一些學術競賽上取得了不錯的成績。像剛纔提到的雙系統、世界模型等,也發表在了今年的ECCV和CoRL上。
接下來想跟大家分享的是一個非常有趣且重要的發現,模型性能和訓練數據體現的規模相關性,也是大家常提到Scaling Laws其中的一個方面。
首先看一下數據分佈,在這里統計了在過去的2個月里,我們對於智能駕駛非常熱愛的萬人用户先鋒團的使用情況,他們分佈在全國超過300多個城市,在過去2個月時間里完成了接近200萬公里的城市NOA的使用里程,也幫我們積累了非常寶貴的數據。可以看到上海的也是全國範圍內最愛使用城市NOA的Top5城市之一。
有了這些數據以后,再去做下一步分析,我們在這兩個月的時間里,一共訓練了25版模型,大概平均每2-3天就會有一個新版的模型出來。經過剛纔提到的基於世界模型的評價系統,以及我們對於模型準出的其他要求,這25版模型中,最終釋放給用户的是18個。
再來看縱軸,縱軸表示的數值是在城市工況內的平均連續行駛里程,也就是連續開多少公里需要接管一次。這里數據點的顏色表徵了使用不同的數據量訓練出的模型的版本,藍色是100萬clips訓練的模型,綠色是200萬,金黃色代表的是300萬。我們也在近期剛剛向用户釋放了下一版基於400萬clips訓練的模型,相關的數據統計也還在進行中。
可以看到從第一個模型開始,連續行駛里程剛剛超過10公里,到9月底的時候,達到了將近30公里。在對這些數據點進行擬合之后,就看到了Scaling Law。如果再往后做一些預測的話,我們的下一個目標是讓城市工況的平均行駛里程達到100公里,對應推算出將需要大約1000萬clip的數據,同時也驗證了當前數據的規模與質量已經成爲了模型性能的決定性的因素。
如果城市NOA的連續行駛里程可以達到100公里,那一個普通用户可能每周只需要接管1-2次。雖然按照相關政策法規,這目前仍然是一個L2級別的輔助駕駛系統,但是它的體驗已經可以讓我們看到L3的雛形。
説完了技術,再來看一下產品方面。我們同樣快速完成了基於以上技術方案的產品化的落地,首先看一個演示視頻,這里借鑑了一些我們的AI agent「理想同學」的能力。
(視頻)
剛纔這位用户提到的一鍵智駕,也就是現在開始向用户推送的「車位到車位」的全場景智能駕駛的功能,可以完成從車位的出發,跨層地庫的行駛,包括小區、園區閘機的自動通行,到公開道路以后,可以完成一些相對複雜的城市場景的交通博弈。假如我們的用户在自己的小區,或者在公司或者在喜歡去的商超,也會有一個常用的車位,就可以完成車位到車位連續的完整行駛體驗。
下一部分是關於主動安全。除了剛纔提到的舒適駕駛類的功能之外,我們也一向非常關注主動安全方面的能力。除了不斷提高常規的自動緊急制動,也就是AEB,的能力之外,在最近的OTA中,我們也向用户推送兩個相對比較新的主動安全功能。
第一個是AES,自動緊急轉向,最高支持130KPH的車速。這個視頻也來自一位我們的真實車主,在AES上線不到2周之內就碰到的一個非常極限的案例,當時以130KPH的速度行駛在高速公路上,在彎道遇到一個作業並不太規範的施工車,即使對於人類駕駛員來説,當時的場景也非常危急,我們通過AES幫助用户有驚無險地避免了這起事故。
第二個是低速AEB,就是LS-AEB,主要的目標是覆蓋一些常見的低速泊車類的場景。比如在地庫里,以相對較低的速度,和周圍的行人、柱子、欄杆等可能發生的碰撞。這些事故的特點是發生碰撞之后,可能造成的損失不大,但是很麻煩,特別是針對一些新手駕駛員。
我們通過AES和低速AEB這樣的產品,完成了全時段、全速域的主動安全的保證。
能夠去支持我們完成這樣的技術以及產品的創新,離不開兩大核心基礎設施,一個是訓練里程,一個是訓練算力。目前我們的訓練里程基數已經達到26億公里,並有信心在今年突破30億公里。在算力方向,當前為5.39E Flops,預計在今年之內可以達到8E Flops,去支撐后續持續的研發。
最后的一頁中,也向大家分享一下理想汽車以及智能駕駛的中長期規劃。理想汽車的企業願景是在2030年成為全球領先的人工智能企業,而智能駕駛又是其中最重要的部分之一。在智能駕駛方面,未來我們計劃以超過50E Flops訓練算力,超過100億公里的訓練里程,以及超過350萬台的車隊規模,來去持續推進下一步智能駕駛以及自動駕駛的前瞻性研發迭代。我們的第一個目標是達到跟人類相當的駕駛智能,將城市工況平均的連續行駛里程,在下一個milestone提高到2500公里。
在安全方面,目前通過內部的數據統計,人類平均的MPA,即安全里程,每多少公里出現一次事故,大概在24萬公里左右。我們期望智能駕駛能夠達到優於人類10倍的駕駛安全,我們下一個目標讓智能駕駛的MPA達到至少240萬公里,這會遠超絕大多數用户一生的駕駛里程。
理想汽車希望能通過智能駕駛領域的技術創新以及產品落地,持續推送智能駕駛的社會使用普及,也共同期待以及加速未來自動駕駛時代的到來。謝謝!
(注:本文根據現場速記整理,未經演講嘉賓審閲)
責任編輯:梁斌 SF055