熱門資訊> 正文
2026-05-18 12:22
物理AI是AI發展的終極模式,它不僅需要理解人的指令,還要理解物理世界的所有規律。
最近有個詞在圈子里傳得很熱,叫「物理AI」。
這個詞其實在去年初的拉斯維加斯CES展會上,就被黃仁勛演講時反覆唸叨了十多遍,但直到今年,「Physical AI」才迎來了真正意義上的爆發。
那麼,「物理AI」究竟是什麼?
前兩天我看到一段機器人澆花的視頻,機器人先走到水龍頭前,擰開閥門,把水壺灌滿,然后轉身走到花盆邊,調整角度,把水均勻地澆進去,壺嘴沒有撞到花盆邊緣,水也沒有灑出來。
讓一臺機器理解「端一杯水」,它得知道杯子是圓柱形的,得算出該用多大的力捏住纔不會滑也不會碎,得明白水是液體、晃動會灑出來,得在行走過程中實時調整手臂角度來抵消身體的起伏。
這些東西,人類三歲小孩憑直覺就能做到。但對AI來説,這是一個巨大的跨越。過去十年,AI學會了看、學會了聽、學會了説話、學會了畫圖,但它始終困在屏幕里。物理AI要做的事情,就是把這個聰明的大腦,裝進一個能在真實世界里跑、跳、抓、放的軀體里。
說白了,物理AI就是讓AI理解並作用於物理世界。它不再只是處理文字和圖片,而是要在重力、摩擦力、慣性都起作用的環境里,做出正確的動作。
一個很少被國內討論的事實是,「Physical AI」這個提法並非出自某個芯片巨頭的公關部門。這個概念最早見於2020年的一篇論文,發表在《Nature Machine Intelligence》上。文中第一次系統定義了Physical AI:
一類能夠執行通常與智能生物體相關聯任務的實體系統,核心在於把物理規律深度整合進人工智能系統,讓機器不再是「物理盲」,能夠完成從感知到行動的閉環。
從2020年學術圈的一聲槍響,到2026年產業界全面接棒,中間隔了整整六年。這六年里,傳感器成本降低了幾個量級,端側AI算力從理論走向工程化,機器人本體的可靠性和量產能力也悄悄走到了臨界點——這些纔是物理AI從論文走向產線的隱性推力。
如果説2023年的大語言模型讓AI學會了聊天,那2026年物理AI的關鍵詞只有一個:干活。
事情的變化是肉眼可見的。
去年這個時候,機器人公司出來秀肌肉的方式還是拍Demo視頻,設定好場景,反覆排練,一鏡到底。好看是好看,但你不知道它拍了多少遍。
而今年,玩法完全不同了。今年智元機器人在南昌的一條3C產線上做了一件事:把機器人扔進真實工廠,連續干了幾個小時的活,全程直播。沒有預設劇本,沒有限定場景,就是工人日常面對的那條產線。幾十萬人次在線圍觀。
一個月后,智元在香港宣佈人形機器人實現萬台量產。從實驗室里的一臺原型機,到工廠產線上的一萬台,這個坎翻過去,性質就變了。
智元的路線很有意思,大多數機器人創業公司聚焦在某個環節上,做本體的只管本體,做大模型的只管大模型,做靈巧手的只管手。智元選了另一條路:全棧都做,同時佈局本體制造、AI模型、靈巧操作和數據採集四個方向,還投資了60多家產業鏈上下游公司。
這麼做的代價也很直觀,母公司員工一千多人,到今年底預計進一步突破人,光薪資一年就是十幾到二十個億。這條路燒錢,但一旦跑通,壁壘也最深。
智元創始人鄧泰華提過一個叫「XYZ曲線」的分析框架。他説具身智能的發展分三個階段:X是開發嚐鮮期,大家還在玩Demo;Y是部署成長期,機器人開始真正進產線干活;Z是終局的智能涌現期。
他給2026年的定性是:「部署態元年,正式從‘能動’走向‘會干’」。「能動」和「能干」,差一個字,但差的是整個產業的成年禮。
海外也在衝刺,太平洋對岸的節奏一點不慢。
美國人形機器人公司Figure AI是這條賽道上一個繞不開的名字。去年9月,他們完成了一輪超過10億美元的融資,估值干到了390億美元,在那會兒是全球估值最高的人形機器人公司。
一個月后發佈了新一代產品Figure 03,1米68的身高,差不多60公斤重,演示了澆花、端菜、疊衣服這些家務活。創始人Brett Adcock特意在社交媒體上補了一句:所有動作都是機器人自主完成的,沒有人在背后遙控。
技術上值得留意的是,Figure做了一次重大的路線調整,終止了和OpenAI的合作,全面轉向自研的神經網絡系統Helix。
這套系統模仿人類認知做成了三層結構,最底層管平衡和本能反應,中間層把大腦指令翻譯成每秒200次的電機控制,最高層是邏輯大腦,負責理解場景和做決策。這個「本能-反射-思考」的三層架構,思路挺巧妙的,相當於給機器人裝了一個不會宕機的神經系統。
還有件事值得一提。今年英偉達在GTC大會上宣佈了一個動作:和全球四大工業機器人巨頭,ABB、庫卡、安川、發那科,達成了深度合作。全球已經安裝在產線上的超過200萬台工業機器人,以后可以通過英偉達的仿真平臺做虛擬調試和AI訓練。
這四家公司加一塊佔了全球工業機器人市場超過一半的份額。接下來十年,這些機器人都會面臨一輪從「傳統編程」到「AI驅動」的升級換代。未來哪個軟件平臺能嵌進這個進程,就相當於拿到了下一代工業自動化的「操作系統」層。英偉達顯然不想錯過這張船票。
還有一個有意思的現象:汽車供應鏈企業正在成規模地涌進物理AI賽道。
今年北京車展上,安波福、法雷奧、地平線、千尋位置這些老牌汽車供應商,扎堆展示了機器人相關方案。當時不少業內人士都認識到,具身智能感知和汽車智駕的感知是一樣的,汽車的解決方案可以直接用到人形機器人上。
仔細一想確實如此。汽車智能駕駛系統本質上就是一個「移動機器人」的感知-決策-執行閉環,其中的視覺感知、路徑規劃、實時控制三大模塊,與傳統工業機器人和人形機器人在技術架構上高度同源。
汽車供應商手中的攝像頭、雷達、線控底盤和實時操作系統,稍加適配就能遷移到機器人領域。從這個意義上説,汽車產業過去十年在智能化上燒的上千億研發費用,正在以「技術溢出」的方式流進物理AI賽道。
這或許能解釋為什麼中國的機器人公司能這麼快衝進量產階段。製造能力和供應鏈管理不是憑空長出來的,很多是現成的。那些已經在汽車產線上磨合了十幾年的零部件供應商,現在換了個新戰場。
國外有現成的案例,就拿特斯拉來説,它的第一代人形機器人Optimus也在加速入場。此前特斯拉在2026年第一季度財報電話會議上明確宣佈,公司將向「以AI、自動駕駛出租車和人形機器人為核心的未來轉型」,第一代機器人生產線將下線100萬台產能,並取代現有Model S和Model X的生產線。
100萬台的數字放到今天的語境里可能顯得誇張,但特斯拉的邏輯是清楚的:它要把汽車製造領域積累的大規模生產能力和供應鏈管理經驗,直接複製到人形機器人領域。
馬斯克要的不是一臺「能動的機器人」,而是一臺能在工廠里和人類協同作業的「量產工具」。這條路一旦走通,它對製造業自動化格局的衝擊將不亞於Model 3對燃油車市場的衝擊。
講完了產業層面的大廠動作,不妨把鏡頭往深拉一層,這場物理AI競賽的技術底座是什麼?
如果用一句話概括,那就是:世界模型的工程化突破。我覺得這也是理解這波浪潮最關鍵的一點。
「世界模型」這個概念不新了,2018年就有人提出來,核心想法很簡單:讓AI學會一套對物理世界運轉規律的內部理解,這樣它就能預測「如果我推這個杯子一下,會發生什麼」。但以前這東西基本只活在論文里——太吃算力,生成質量不穩定,做不了實時交互。
轉折發生在最近一年。英偉達推出了一個叫Cosmos的系列模型,它的核心能力就是從文字或圖像生成符合物理規律的動作數據。
舉個例子:你想訓練一臺機器人學會在各種天氣下搬箱子,不用真的在雨天、雪天、半夜去工廠里拍視頻。在仿真環境里設定好參數,Cosmos可以直接生成海量的、高度逼真的訓練數據,覆蓋各種極端場景。
今年年初,螞蟻靈波團隊開源了一個叫LingBot-World的框架,專門做交互式世界模型。它能實現近10分鍾連續穩定的視頻生成,端到端交互延迟控制在秒單位。用户可以像打遊戲一樣,用鍵盤和鼠標實時控制虛擬角色,模型即時反饋場景變化。這個意義在於,世界模型從「離線渲染」變成了「在線交互」,訓練效率提升了一個量級。
還有創業公司極佳視界發佈了GigaWorld-1平臺,定位是物理世界的「數字沙盒」。一個月后,阿里巴巴的ABot-PhysWorld在一個叫WorldArena的評測基準上超過了它,綜合排名衝到了第一。競爭正在以月為單位往前拱。
這些開源項目的重要性不在於參數有多高,而在於它們把一個「只有巨頭玩得起」的遊戲,變成了「小團隊也能上手」的工具。當造輪子的人足夠多,真正跑起來的車纔會多。
世界模型之所以在物理AI時代成為核心要件,是因為它回答了那個一直懸而未決的問題:如何讓機器人以低成本、高效率的方式學會物理世界的複雜規律?
真實世界的訓練數據獲取成本極高,且天然帶有分佈偏差,你很難在現實中湊齊工廠暴雪夜班、物流倉庫斷電應急、產線工人突發介入等所有邊緣場景。但合成數據可以。通過在仿真環境中用提示詞操控場景參數,研究者可以在數小時內生成覆蓋極端條件的大規模訓練視頻,這在傳統實採路線下需要數月甚至數年。
這個突破的槓桿效應,可能超過一切單一算法改進。
世界模型的突破,其實只是物理AI技術棧進化的一部分。底層技術的變化,正在推動整個機器人行業的架構重建。
傳統機器人用的是「感知、規劃、控制」三段式。先由傳感器感知環境,工程師寫好規則告訴機器怎麼規劃路徑,最后執行動作。這在工廠流水線這種結構化環境里沒問題,但場景一複雜就暴露短板,機器只會按預設劇本走,遇到沒見過的狀況直接卡住。
物理AI走的是另一條路:「感知、推理、執行」。感知之后不經過人類寫死的規則,而是由訓練過的神經網絡自己推理出該做什麼,然后執行。本質的區別在於,前者是「工程師替機器思考」,后者是「機器自己理解物理世界」。
國際機器人標準組織今年發佈了一份技術路線圖,預測未來三年內,80%的新機型將採用這種新架構,傳統三段式方案會逐漸退出主流。這不是小修小補,是整套範式的換軌。
就像某位業內專家説的,我覺得總結得挺到位:物理AI是AI發展的終極模式,因為它不僅需要理解人的指令,還要理解物理世界的所有規律。
黃仁勛説機器人開發的ChatGPT時刻已然到來。」在我看來,物理AI和語言模型的「ChatGPT時刻」性質完全不同。語言模型的「那一刻」是讓全世界普通人第一次親手用上了AI。而物理AI的「那一刻」,是讓AI第一次真正開始干活。
如今這個賽道處於一個很特殊的階段:方向被鎖定了,概念被認可了,但格局還沒定。
一方面,做演示和做量產是兩套完全不同的能力體系。一臺樣機能跑通,一萬台產品在真實場景里考驗的是製造一致性、供應鏈韌性、場景泛化能力、運維體系,這些跟AI算法沒什麼關係,但每一項都足夠卡死一批玩家。另一方面,真實世界的數據採集成本高、周期長、覆蓋面窄,這幾乎註定了物理AI的大規模訓練將嚴重依賴合成數據。
與此同時,從汽車供應鏈、傳統工業自動化,到消費電子代工,這些看起來和「AI」關係不大的行業,正在以技術溢出的方式加速切入物理AI。它們的製造能力、供應鏈管理經驗和場景資源,可能是決定物理AI落地速度的關鍵變量。
一個直覺性的判斷是,你看2023年初ChatGPT引爆的那波AI浪潮,真正賺到最多價值的不是模型廠商,而是基礎設施提供商。物理AI這波浪潮會不會重演同樣的劇情?
英偉達的佈局暗示着它正在賭這個方向,但故事還沒寫完。2026年是部署態元年,產業競爭纔剛剛開始。三年后回看今天,哪些名字還在牌桌上,哪些已經出局,可能會出乎大多數人的意料。
本文來自微信公眾號「新眸」(ID:xinmouls),作者:鹿堯,36氪經授權發佈。