熱門資訊> 正文

物理AI火了，我的一些新思考

2026-05-18 12:22

物理AI是AI發展的終極模式，它不僅需要理解人的指令，還要理解物理世界的所有規律。

最近有個詞在圈子里傳得很熱，叫「物理AI」。

這個詞其實在去年初的拉斯維加斯CES展會上，就被黃仁勛演講時反覆唸叨了十多遍，但直到今年，「Physical AI」才迎來了真正意義上的爆發。

那麼，「物理AI」究竟是什麼？

前兩天我看到一段機器人澆花的視頻，機器人先走到水龍頭前，擰開閥門，把水壺灌滿，然后轉身走到花盆邊，調整角度，把水均勻地澆進去，壺嘴沒有撞到花盆邊緣，水也沒有灑出來。

讓一臺機器理解「端一杯水」，它得知道杯子是圓柱形的，得算出該用多大的力捏住纔不會滑也不會碎，得明白水是液體、晃動會灑出來，得在行走過程中實時調整手臂角度來抵消身體的起伏。

這些東西，人類三歲小孩憑直覺就能做到。但對AI來説，這是一個巨大的跨越。過去十年，AI學會了看、學會了聽、學會了説話、學會了畫圖，但它始終困在屏幕里。物理AI要做的事情，就是把這個聰明的大腦，裝進一個能在真實世界里跑、跳、抓、放的軀體里。

說白了，物理AI就是讓AI理解並作用於物理世界。它不再只是處理文字和圖片，而是要在重力、摩擦力、慣性都起作用的環境里，做出正確的動作。

一個很少被國內討論的事實是，「Physical AI」這個提法並非出自某個芯片巨頭的公關部門。這個概念最早見於2020年的一篇論文，發表在《Nature Machine Intelligence》上。文中第一次系統定義了Physical AI：

一類能夠執行通常與智能生物體相關聯任務的實體系統，核心在於把物理規律深度整合進人工智能系統，讓機器不再是「物理盲」，能夠完成從感知到行動的閉環。

從2020年學術圈的一聲槍響，到2026年產業界全面接棒，中間隔了整整六年。這六年里，傳感器成本降低了幾個量級，端側AI算力從理論走向工程化，機器人本體的可靠性和量產能力也悄悄走到了臨界點——這些纔是物理AI從論文走向產線的隱性推力。

從演示到干活

如果説2023年的大語言模型讓AI學會了聊天，那2026年物理AI的關鍵詞只有一個：干活。

事情的變化是肉眼可見的。

去年這個時候，機器人公司出來秀肌肉的方式還是拍Demo視頻，設定好場景，反覆排練，一鏡到底。好看是好看，但你不知道它拍了多少遍。

而今年，玩法完全不同了。今年智元機器人在南昌的一條3C產線上做了一件事：把機器人扔進真實工廠，連續干了幾個小時的活，全程直播。沒有預設劇本，沒有限定場景，就是工人日常面對的那條產線。幾十萬人次在線圍觀。

一個月后，智元在香港宣佈人形機器人實現萬台量產。從實驗室里的一臺原型機，到工廠產線上的一萬台，這個坎翻過去，性質就變了。

智元的路線很有意思，大多數機器人創業公司聚焦在某個環節上，做本體的只管本體，做大模型的只管大模型，做靈巧手的只管手。智元選了另一條路：全棧都做，同時佈局本體制造、AI模型、靈巧操作和數據採集四個方向，還投資了60多家產業鏈上下游公司。

這麼做的代價也很直觀，母公司員工一千多人，到今年底預計進一步突破人，光薪資一年就是十幾到二十個億。這條路燒錢，但一旦跑通，壁壘也最深。

智元創始人鄧泰華提過一個叫「XYZ曲線」的分析框架。他説具身智能的發展分三個階段：X是開發嚐鮮期，大家還在玩Demo；Y是部署成長期，機器人開始真正進產線干活；Z是終局的智能涌現期。

他給2026年的定性是：「部署態元年，正式從‘能動’走向‘會干’」。「能動」和「能干」，差一個字，但差的是整個產業的成年禮。

海外也在衝刺，太平洋對岸的節奏一點不慢。

美國人形機器人公司Figure AI是這條賽道上一個繞不開的名字。去年9月，他們完成了一輪超過10億美元的融資，估值干到了390億美元，在那會兒是全球估值最高的人形機器人公司。

一個月后發佈了新一代產品Figure 03，1米68的身高，差不多60公斤重，演示了澆花、端菜、疊衣服這些家務活。創始人Brett Adcock特意在社交媒體上補了一句：所有動作都是機器人自主完成的，沒有人在背后遙控。

技術上值得留意的是，Figure做了一次重大的路線調整，終止了和OpenAI的合作，全面轉向自研的神經網絡系統Helix。

這套系統模仿人類認知做成了三層結構，最底層管平衡和本能反應，中間層把大腦指令翻譯成每秒200次的電機控制，最高層是邏輯大腦，負責理解場景和做決策。這個「本能-反射-思考」的三層架構，思路挺巧妙的，相當於給機器人裝了一個不會宕機的神經系統。

還有件事值得一提。今年英偉達在GTC大會上宣佈了一個動作：和全球四大工業機器人巨頭，ABB、庫卡、安川、發那科，達成了深度合作。全球已經安裝在產線上的超過200萬台工業機器人，以后可以通過英偉達的仿真平臺做虛擬調試和AI訓練。

這四家公司加一塊佔了全球工業機器人市場超過一半的份額。接下來十年，這些機器人都會面臨一輪從「傳統編程」到「AI驅動」的升級換代。未來哪個軟件平臺能嵌進這個進程，就相當於拿到了下一代工業自動化的「操作系統」層。英偉達顯然不想錯過這張船票。

供應鏈的跨界搶跑

還有一個有意思的現象：汽車供應鏈企業正在成規模地涌進物理AI賽道。

今年北京車展上，安波福、法雷奧、地平線、千尋位置這些老牌汽車供應商，扎堆展示了機器人相關方案。當時不少業內人士都認識到，具身智能感知和汽車智駕的感知是一樣的，汽車的解決方案可以直接用到人形機器人上。

仔細一想確實如此。汽車智能駕駛系統本質上就是一個「移動機器人」的感知-決策-執行閉環，其中的視覺感知、路徑規劃、實時控制三大模塊，與傳統工業機器人和人形機器人在技術架構上高度同源。

汽車供應商手中的攝像頭、雷達、線控底盤和實時操作系統，稍加適配就能遷移到機器人領域。從這個意義上説，汽車產業過去十年在智能化上燒的上千億研發費用，正在以「技術溢出」的方式流進物理AI賽道。

這或許能解釋為什麼中國的機器人公司能這麼快衝進量產階段。製造能力和供應鏈管理不是憑空長出來的，很多是現成的。那些已經在汽車產線上磨合了十幾年的零部件供應商，現在換了個新戰場。

國外有現成的案例，就拿特斯拉來説，它的第一代人形機器人Optimus也在加速入場。此前特斯拉在2026年第一季度財報電話會議上明確宣佈，公司將向「以AI、自動駕駛出租車和人形機器人為核心的未來轉型」，第一代機器人生產線將下線100萬台產能，並取代現有Model S和Model X的生產線。

100萬台的數字放到今天的語境里可能顯得誇張，但特斯拉的邏輯是清楚的：它要把汽車製造領域積累的大規模生產能力和供應鏈管理經驗，直接複製到人形機器人領域。

馬斯克要的不是一臺「能動的機器人」，而是一臺能在工廠里和人類協同作業的「量產工具」。這條路一旦走通，它對製造業自動化格局的衝擊將不亞於Model 3對燃油車市場的衝擊。

世界模型，為什麼今年突然能用起來了

講完了產業層面的大廠動作，不妨把鏡頭往深拉一層，這場物理AI競賽的技術底座是什麼？

如果用一句話概括，那就是：世界模型的工程化突破。我覺得這也是理解這波浪潮最關鍵的一點。

「世界模型」這個概念不新了，2018年就有人提出來，核心想法很簡單：讓AI學會一套對物理世界運轉規律的內部理解，這樣它就能預測「如果我推這個杯子一下，會發生什麼」。但以前這東西基本只活在論文里——太吃算力，生成質量不穩定，做不了實時交互。

轉折發生在最近一年。英偉達推出了一個叫Cosmos的系列模型，它的核心能力就是從文字或圖像生成符合物理規律的動作數據。

舉個例子：你想訓練一臺機器人學會在各種天氣下搬箱子，不用真的在雨天、雪天、半夜去工廠里拍視頻。在仿真環境里設定好參數，Cosmos可以直接生成海量的、高度逼真的訓練數據，覆蓋各種極端場景。

今年年初，螞蟻靈波團隊開源了一個叫LingBot-World的框架，專門做交互式世界模型。它能實現近10分鍾連續穩定的視頻生成，端到端交互延迟控制在秒單位。用户可以像打遊戲一樣，用鍵盤和鼠標實時控制虛擬角色，模型即時反饋場景變化。這個意義在於，世界模型從「離線渲染」變成了「在線交互」，訓練效率提升了一個量級。

還有創業公司極佳視界發佈了GigaWorld-1平臺，定位是物理世界的「數字沙盒」。一個月后，阿里巴巴的ABot-PhysWorld在一個叫WorldArena的評測基準上超過了它，綜合排名衝到了第一。競爭正在以月為單位往前拱。

這些開源項目的重要性不在於參數有多高，而在於它們把一個「只有巨頭玩得起」的遊戲，變成了「小團隊也能上手」的工具。當造輪子的人足夠多，真正跑起來的車纔會多。

世界模型之所以在物理AI時代成為核心要件，是因為它回答了那個一直懸而未決的問題：如何讓機器人以低成本、高效率的方式學會物理世界的複雜規律？

真實世界的訓練數據獲取成本極高，且天然帶有分佈偏差，你很難在現實中湊齊工廠暴雪夜班、物流倉庫斷電應急、產線工人突發介入等所有邊緣場景。但合成數據可以。通過在仿真環境中用提示詞操控場景參數，研究者可以在數小時內生成覆蓋極端條件的大規模訓練視頻，這在傳統實採路線下需要數月甚至數年。

這個突破的槓桿效應，可能超過一切單一算法改進。

範式變了

世界模型的突破，其實只是物理AI技術棧進化的一部分。底層技術的變化，正在推動整個機器人行業的架構重建。

傳統機器人用的是「感知、規劃、控制」三段式。先由傳感器感知環境，工程師寫好規則告訴機器怎麼規劃路徑，最后執行動作。這在工廠流水線這種結構化環境里沒問題，但場景一複雜就暴露短板，機器只會按預設劇本走，遇到沒見過的狀況直接卡住。

物理AI走的是另一條路：「感知、推理、執行」。感知之后不經過人類寫死的規則，而是由訓練過的神經網絡自己推理出該做什麼，然后執行。本質的區別在於，前者是「工程師替機器思考」，后者是「機器自己理解物理世界」。

國際機器人標準組織今年發佈了一份技術路線圖，預測未來三年內，80%的新機型將採用這種新架構，傳統三段式方案會逐漸退出主流。這不是小修小補，是整套範式的換軌。

就像某位業內專家説的，我覺得總結得挺到位：物理AI是AI發展的終極模式，因為它不僅需要理解人的指令，還要理解物理世界的所有規律。

黃仁勛説機器人開發的ChatGPT時刻已然到來。」在我看來，物理AI和語言模型的「ChatGPT時刻」性質完全不同。語言模型的「那一刻」是讓全世界普通人第一次親手用上了AI。而物理AI的「那一刻」，是讓AI第一次真正開始干活。

如今這個賽道處於一個很特殊的階段：方向被鎖定了，概念被認可了，但格局還沒定。

一方面，做演示和做量產是兩套完全不同的能力體系。一臺樣機能跑通，一萬台產品在真實場景里考驗的是製造一致性、供應鏈韌性、場景泛化能力、運維體系，這些跟AI算法沒什麼關係，但每一項都足夠卡死一批玩家。另一方面，真實世界的數據採集成本高、周期長、覆蓋面窄，這幾乎註定了物理AI的大規模訓練將嚴重依賴合成數據。

與此同時，從汽車供應鏈、傳統工業自動化，到消費電子代工，這些看起來和「AI」關係不大的行業，正在以技術溢出的方式加速切入物理AI。它們的製造能力、供應鏈管理經驗和場景資源，可能是決定物理AI落地速度的關鍵變量。

一個直覺性的判斷是，你看2023年初ChatGPT引爆的那波AI浪潮，真正賺到最多價值的不是模型廠商，而是基礎設施提供商。物理AI這波浪潮會不會重演同樣的劇情？

英偉達的佈局暗示着它正在賭這個方向，但故事還沒寫完。2026年是部署態元年，產業競爭纔剛剛開始。三年后回看今天，哪些名字還在牌桌上，哪些已經出局，可能會出乎大多數人的意料。

本文來自微信公眾號「新眸」（ID：xinmouls），作者：鹿堯，36氪經授權發佈。

物理AI火了，我的一些新思考

從演示到干活

供應鏈的跨界搶跑

世界模型，為什麼今年突然能用起來了

範式變了

推薦文章

一周財經日曆 | 壓軸登場！小米、拼多多等重磅財報來襲；深演智能、雲英谷科技等新股下周上市；港美股下周一休市一日

港股周報 | 利好共振！芯片股集體狂飆，兆易創新周漲超43%；阿里致股東信：將AI+雲打造成新增長動力；聯想飆漲20%刷歷史新高

美股機會日報 | 今晚11點！特朗普將親自「加冕」美聯儲新主席沃什；英偉達Vera Rubin機架售價狂飆！產業鏈所有組件迎漲價熱潮

SpaceX在發現多項問題后推迟「星艦」第12次試飛

華盛早報 | 沃什今晚11點宣誓就職美聯儲主席！雷軍稱未來兩年內存或持續漲價；Q1恆指季檢結果今晚公佈

特朗普再威脅伊朗交出濃縮鈾！稱到手后或銷燬

美股機會日報 | 伊朗稱高濃縮鈾不得運往國外；特朗普再出手！美國政府20億美元佈局量子計算；SpaceX正式遞表衝刺納斯達克

一圖看懂 | 連續兩季盈利！蔚來Q1經營利潤0.66億元，交付量超8萬輛；毛利率創近四年新高