繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

英偉達拿出推理版VLA:Alpamayo-R1讓自動駕駛AI更會動腦子

2025-12-02 08:16

(來源:機器之心)

一、自動駕駛的瓶頸:「看」得見,卻「想」不明白

當今自動駕駛模型越來越強大,攝像頭、雷達、Transformer 網絡一齊上陣,似乎什麼都「看得見」。但真正的挑戰在於:模型能否像人一樣「想明白」為什麼要這麼開?

傳統的端到端(E2E)系統雖然能從感知到控制一氣呵成,卻常在「長尾場景」翻車 —— 比如:

  • 迎面來車違規左轉;

  • 行人突然闖入;

  • 臨時施工、交通標誌被遮擋。

這些「極少數但容易發生事故」的場景正是當前系統的盲點。

二、Alpamayo-R1:給模型裝上「推理鏈條」

NVIDIA Research 推出的 Alpamayo-R1(AR1),是一種全新的帶有推理能力的視覺 - 語言 - 行動模型(Reasoning VLA),讓車輛不只是「執行指令」,而是能在決策前「推理出因果關係」。

圖 1:Alpamayo-R1 模型架構(示意) 圖 1:Alpamayo-R1 模型架構(示意)

AR1 的核心創新有三個方面:👇

1. Chain of Causation(因果鏈)數據集

AR1 引入了一套全新的數據標註體系:每一段駕駛數據不僅有「做了什麼」,還有 「為什麼這樣做」。例如:「減速並左變道,是因為前方有助動車等紅燈,且左側車道空閒。

圖 2:因果鏈(CoC)標註示例 圖 2:因果鏈(CoC)標註示例

2. Diffusion-based Trajectory Decoder(擴散式軌跡解碼器)

AR1 引入了一種基於擴散模型的軌跡解碼器,它能在實時約束下生成連續、動態可行的駕駛軌跡。該模塊結合語言推理輸出與物理約束,實現從推理到控制的無縫銜接。

3. Multi-Stage Training(多階段訓練策略)

AR1 是基於 NVIDIA 的 Cosmos Reason 模型,這是一種專為物理 AI(Physical AI)設計的推理視覺語言模型;並採用多階段訓練策略:首先在大規模駕駛數據上做模態注入,學習從視覺到動作的基本映射;第二階段在 CoC 因果鏈數據上做監督微調,顯式教會模型「先想清楚再開」;最后通過強化學習(RL)進一步優化推理質量、推理 - 行動一致性和軌跡安全性。

這種分階段、分目標的訓練流程,使得模型在開放場景、長尾危險場景中都表現的更加穩健。

三、性能飛躍:更穩、更準、更懂你

在實驗中,AR1 為以下性能帶來了顯著提升:

  • 🚀 規劃精度提升 12%

  • 🌲 越界率降低 35%

  • 🚗 近碰率降低 25%

  • 🤖 推理 - 行動一致性提升 37%

  • ⚡ 實時性能:99 ms 端到端延迟

更重要的是,這些提升主要體現在以往最容易出錯的「長尾場景」中 —— 也就是説,它更接近「真正會判斷的司機」。

四、Vision Encoding:高效多相機時序感知

AR1 的輸入由多相機、多時序觀測幀組成,同時可以選配高層語言輸入(如導航指令或駕駛目標)。所有輸入(包括歷史自車運動)會被統一編碼成多模態 token 序列,按時序和傳感器順序排列,再送入主干模型 Cosmos-Reason 進行推理與預測。

在這一過程中:

  • 每個相機視角先經過輕量級 CNN 與時間注意力模塊做特徵壓縮與時序建模;

  • 多相機特徵隨后融合爲 BEV(鳥瞰圖)表徵;

  • 所有模態(圖像、導航文本、自車狀態)被 token 化后統一輸入 Transformer;

  • 模型的輸出包含三類 token:推理鏈(reasoning traces)、中層動作(meta-actions)與未來軌跡預測(trajectories)。

這種統一編碼方式讓模型具備了多模態語義理解與運動狀態感知的「一體化」能力。

五、數據的靈魂:結構化標註的革命

AR1 的 CoC 數據集採用「人機協同標註」機制:

  • 人工部分:標註關鍵幀、核心因果因素(如紅燈、行人、障礙物),並撰寫推理鏈。

  • 自動部分:通過 GPT-5 等大模型自動生成初版推理,再由人類審查。

  • 質量審覈:每條樣本通過因果覆蓋、因果正確性、近因優先等四項規則嚴格把關。

最終形成數十萬條高質量推理 - 行動樣本,使 VLA 模型能真正「理解因果,而非記憶現象」。

圖 3:CoC 數據標註流程示意圖 圖 3:CoC 數據標註流程示意圖

六、Multi-Stage Training:從常識推理到行為控制

Alpamayo-R1 的訓練分為三個階段,旨在讓模型從「看懂」到「會想」再到「能開」。

圖 4: AR1 訓練流程示意圖 圖 4: AR1 訓練流程示意圖

1. 監督微調(Supervised Fine-Tuning, SFT)

基於 Cosmos-Reason 的預訓練權重進行微調。該主干模型原本在 370 萬條 VQA 數據上后訓練(post-training),其中包括 2.47 萬條專為駕駛設計的視頻樣本,帶有場景描述、駕駛難度和推理軌跡標註,幫助模型建立「物理常識」和 「因果直覺」。

此外還構建了額外的 10 萬條駕駛樣本,標註關鍵目標、交通信號、因果行為解釋等信息,用於領域自適應微調。

2. 因果鏈監督階段(CoC Supervision)

引入 CoC 因果鏈數據集,顯式監督模型的推理輸出,使其能回答「為什麼要減速」、「為什麼左轉」。這一階段通過人工 + 教師模型(如 GPT-5)生成高質量推理樣本,使模型在策略學習前先獲得強大的語言 - 推理能力。

3. 強化學習后訓練優化(Reinforcement Learning based Post-Training)。

在最終階段,英偉達通過強化學習對模型進行策略微調,以進一步提升其在推理精準性、推理–行動一致性、軌跡平滑性以及閉環控制穩定性等方面的表現。

Alpamayo-R1 引入了多維度獎勵機制:包括由專家級推理模型提供的反饋信號,用於評估並引導模型生成更具因果邏輯的推理;「推理–行動一致性(Reasoning–Action Consistency)」獎勵,用於鼓勵模型依據自身推理合理執行動作;以及底層安全獎勵,用以促進模型生成更加安全、平滑且可執行的運動軌跡。

七、未來展望:邁向可解釋的 L4 自動駕駛

AR1 的設計理念可以看作是自動駕駛從「黑箱」到「白箱」的轉折點。

它不再只是一個會開車的 AI,而是一個能告訴你「為什麼這樣開」的駕駛員。

✨ 小結:讓自動駕駛「有理可講」

Alpamayo-R1 的意義不止在性能提升,更在於:它讓 AI 的「推理鏈」與物理世界的「行動鏈」形成真正的閉環。

當車輛能解釋自己的每一個決策時,才能確保更加安全,信任與普及纔會得以實現。

一句話總結:AR1 = 會開車 + 會思考 + 會解釋的自動駕駛模型

詳細內容請查看:https://research.nvidia.com/publication/2025-10_alpamayo-r1

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。