繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

LeCun發佈最新世界模型:首次實現16秒連貫場景預測,具身智能掌握第一視角!還打臉用了VAE

2025-06-30 14:38

聞樂 發自 凹非寺

量子位 | 公眾號 QbitAI

LeCun在干嘛呢?

就在扎克伯克親自帶隊Meta的AI項目,千億薪酬挖得硅谷人心浮動之際。Meta在AI領域最負盛名的大佬、圖靈獎得主、深度學習三巨頭之一的Yann LeCun,卻幾乎聲量全無,他沒有參與LLM基礎模型的研發,也開始在社交網絡上消停了。

LeCun是要離開Meta了嗎?

不不不。他可能只是在憋自己想追逐的大招,比如——世界模型。而且就在最近,LeCun團隊的世界模型新進展來了。

名叫PEVA模型,新突破是讓具身智能體學會這人類一樣的「預判能力」,首次實現16秒連貫場景預測。怎麼説呢?就像人類伸手時會預判手臂進入視野的角度、走路時會提前觀察腳下路徑,LeCun團隊的最新模型,可以讓機器人實現這樣的能力。

該模型通過結構化動作表示將人體48維關節運動學數據與條件擴散Transformer結合。

利用VAE編碼視頻幀、自適應層歸一化嵌入動作條件及跨歷史幀注意力機制等,實現了從全身動作預測第一視角視頻的高精度生成與長期時序連貫。

PEVA模型讓具身智能體不再依賴「上下左右」這種抽象信號進行訓練,而是以第一人稱視角的視頻+全身姿態軌跡為輸入,讓它 「模仿」 人類第一視角下的動作與感知。

通過隨機時間跳躍與跨歷史幀注意力,解決了擴散模型在長時序動作預測中的計算效率與延迟效應問題。

不僅能讓智能體精確模擬伸手取物、行走轉向等基礎動作,更實現了長達16秒的連貫場景預測

PEVA還具備智能規劃能力,能在多個動作選項中篩選出最優解,輕松完成開冰箱、抓取目標物體等複雜任務。

這項突破,或許將改寫具身智能體 「笨拙反應」 的歷史,讓它們真正學會「思考」下一步。

LeCun這是要讓AI從「人工智障」進化成「人工預判」啊!

PEVA模型: 像人類一樣 「模擬」 世界

LeCun團隊認為具身智能體世界模型應具備理解、預測和規劃等能力,能夠讓機器像人一樣 「想象」 動作后的視覺效果。

比如,在一個家庭環境中,模型要能識別出沙發、桌子等物體,以及人在房間走動、拿取物品等動作,然后基於這些感知預測未來行動軌跡。

於是,PEVA模型摒棄了抽象控制信號,採用真實物理基礎上的複雜動作空間。

關鍵創新在於用全身動作數據訓練模型,讓智能體在多樣化的現實場景中以第一人稱視角行動。

結構化動作表示

人體動作包含「整體移動」(如行走)和「關節精細運動」(如手指抓握),需用高維結構化數據同時捕捉這兩層信息。

傳統模型使用低維控制信號(如速度、轉向),無法刻畫全身關節的協同運動對視覺的影響(如伸手時肩、肘、腕的聯動如何改變視野)。

結構化動作表示的核心目標是完整捕捉人體運動中「整體動作」與「細微關節變化」的雙重信息。

技術實現

  • 運動學樹結構編碼:將人體動作表示為以骨盆為根節點的關節層級樹,包含根關節的3維平移(全局動態)和15個上半身關節的相對旋轉(每個關節3維歐拉角,共45維),總維度48維。

  • 局部座標系轉換:將全局座標轉換為以骨盆為中心的局部座標,消除初始位置和朝向的影響,使動作表示具有平移 / 旋轉不變性(如無論人在房間何處,相同伸手動作的編碼一致)。

  • 歸一化與差分表示:位置參數縮放至[-1,1],旋轉參數約束在[-π,π],並以 「幀間變化量」 表示動作(如從第t幀到t+1幀的關節運動增量),強化時間動態特性。

通過「關節層級編碼+局部座標系轉換+幀間差分」的設計,將人體全身運動轉化為模型可理解的高維結構化數據,既保留了物理真實性,又支持細粒度的視覺控制。

條件擴散Transformer架構

讓智能體學會「預測」能力的挑戰在於動作與視覺的關係具有高度非線性(如同一手臂動作在不同環境中導致的視覺變化不同),且存在延迟效應(如行走幾步后纔看到新場景),需高效捕捉長距離依賴。

△PEVA模型設計 PEVA模型設計

架構創新

  • 隨機時間跳躍訓練:從長視頻中隨機採樣幀(如32秒窗口中選16幀),並將時間跳躍作為動作輸入的一部分,讓模型學習不同時間尺度下的動作動態(如快速揮手與緩慢揮手的視覺差異)。

  • 時間注意力機制:通過跨歷史幀的交叉注意力,讓當前幀生成時關注過去多幀的 「乾淨」 特徵(未加噪聲的真實編碼),建模動作的延迟視覺影響(如提前預測轉身后續的場景變化)。

  • 動作嵌入:將48維動作向量拼接后通過自適應層歸一化嵌入Transformer各層,動態調整網絡參數,使動作信息直接影響視覺生成過程(例如,動作中的「向前走」信號會引導模型生成視角前移的畫面)。

該模型採用自迴歸擴散訓練,通過強制輸入真實歷史幀編碼,結合序列級損失函數,確保生成幀在動作驅動下保持時序連貫(如連續伸手動作的視覺軌跡平滑)。

在訓練中使用了Nymeria數據集,該數據集包含同步的第一視角視頻與全身動作捕捉數據,覆蓋了真實場景中的日常動作(如做飯、行走),提供充足的 「動作-視覺」 對兒用於訓練,避免了模擬數據的物理偏差。

訓練時隨機選擇幀子集(如16幀),通過因果掩碼並行處理序列前綴,提升長視頻訓練效率,同時覆蓋動作的短期(如手部微動)與長期(如繞桌行走)影響。

實驗成果:從「機械執行」到「智能規劃」的跨越

PEVA模型讓具身智能體實現了從人體關節運動學軌跡到第一人稱視頻的端到端預測

定量分析表明,PEVA模型在多項任務上表現優於基線模型。

在單步預測中,相比CDiT基線,PEVA的LPIPS值降低0.01,FID降低1.42,表明其生成畫面與真實畫面的視覺相似度更高、生成質量更優。

在原子動作控制實驗里,針對 「左手向上」「全身向前」 等基礎動作,PEVA的LPIPS值比CDiT基線低5%-8%,證明其能更精準地捕捉細粒度動作帶來的視覺變化。

長期視頻生成方面,在16秒長序列預測時,PEVA的FID值相比Diffusion Forcing(DF15%以上,生成視頻的時序連貫性顯著增強。

不僅如此,PEVA模型還能準確預測2秒內的畫面變化,支持長達16秒的視頻生成。

在給定多個可能的動作序列時,模型能通過感知相似度評估自動排除不合理選項,選擇與目標場景最匹配的動作路徑,展現出類似人類的「試錯-規劃」思維。

比如,PEVA能夠通過感知環境,排除第一行「打開水槽」和第二行「走到户外」的動作序列,找到第三行「打開冰箱」的合理動作。

One More Thing

有意思的是,LeCun曾多次公開表達了對VAE(基於變分推斷)侷限性的批評,卻在PEVA模型的預訓練中使用了VAE編碼器,並用VAE解碼器進行了圖像生成的后處理。

LeCun曾稱「VAE是生成模型中的酸黃瓜」(可以理解為「不夠好但勉強可用」),並調侃其生成樣本的模糊性。

於是,此番讓VAE扮演「視覺特徵轉換器」的角色引起了網友們的討論。

Yann LeCun立場有所改變?

有人認為,儘管LeCun有時不同意某種觀點,但他支持各種新可能。

或者,VAE是一種更實用的選擇。

如果智能體真能像人類一樣預判行動,以后掃地機器人能提前 「想」 清楚路線,估計再也不會卡在桌角反覆橫跳了。

你最想讓機器人幫你搞定什麼事呢?

論文地址:https://arxiv.org/abs/2506.21552項目地址:https://dannytran123.github.io/PEVA/

參考鏈接:https://www.reddit.com/r/LocalLLaMA/comments/1lnf7eo/is_yann_lecun_changing_directions_prediction/

(聲明:本文僅代表作者觀點,不代表新浪網立場。)

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。