熱門資訊> 正文
2026-06-16 16:31
文|周鑫雨
編輯|張雨忻
梳理近半年的成果,大曉機器人董事長、商湯科技聯合創始人王曉剛,滔滔不絕聊了10多分鍾。
成立於2025年7月,大曉機器人(ACE ROBOTICS)是具身領域姍姍來迟的入局者。但一年來,這位新玩家成了賽道的「卷王」:
在模型側,大曉新發布的具身大腦——世界模型「開悟(Kairos)3.0」,在4項全球具身智能基準測試中取得SOTA;開源的Kairos 3.0-4B,則率先實現在端側直接驅動具身智能本體的能力。
△Kairos3.0在4個世界模型生成預測具身智能榜單中取得SOTA。圖源:大曉機器人
在數據側,大曉提出的「以人為中心」環境式採集方案,通過大規模採集人類與真實環境的交互過程,將世界模型訓練數據量擴展至100萬小時,達到傳統真機(人遙控機器人)採集模式的10倍。
還有落地——半年前,大曉的具身大腦模組A1,落地的主要場景,還是從事道路巡檢的機器狗;如今,這顆「大腦」已經隨着形態各異的機器人,進入了酒店、無人零售店、無人物流倉等多個場景。
△大曉在上海西岸落地的機器狗巡邏方案。圖源:大曉機器人
2026年6月15日,大曉機器人官宣完成天使+輪融資——距離上一輪官宣,僅隔了4個月。
這一輪投資方包括達晨財智、深創投、上海科創基金、沐曦股份、盛宇投資、復星鋭正、華控基金、臨港新片區基金、豫資漲泉等基金,老股東商湯國香資本持續增資,告捷資本擔任長期財務顧問。
至此,2026年以來,大曉的累計融資金額已經達數億美元。據《智能涌現》瞭解,大曉也成了具身領域最快成為獨角獸的企業之一。
在單輪融資金額動輒數億元的具身賽道,不僅是技術競速,入局玩家的場景圈地之戰已然打響:
孵化自清華的「千訣科技」,瞄準的是酒店保潔、商用服務、精密室內作業等實景項目;前華為車BU首席科學家陳亦倫創立的它石智航,聚焦的是線束裝配場景。
「具身領域的產業鏈非常長,很難靠一家企業做完所有的事。」王曉剛告訴《智能涌現》,「所以在其中怎麼撬動更多資源,在整個具身產業鏈中把握生態位的主導權,是非常關鍵的。」
然而,在落地過程中,王曉剛感受到的是:硬件、數據、模型,三者的結合還不夠。
在海外,Figure、特斯拉等頭部具身企業,都在內部整合硬件研發、數據採集和模型訓練,以此提高協同迭代的效率。
在國內,這套閉環尚未形成。王曉剛坦言,受制於技術成熟度和資源投入壓力,不少本體公司對場景落地持謹慎態度;上游數據採集標準尚未統一,可直接用於具身模型訓練的高質量數據供給不足。與此同時,硬件迭代的周期遠長於模型,導致設計很難協同。
找到可規模化的落地場景,以及可深度合作的本體廠商,是當下大曉構建「硬件、數據、模型」閉環的方法論。
在王曉剛的規劃中,大曉會先深入廣闊的道路巡檢和無人物流倉場景,再擴展到更為複雜、安全性要求更高的C端家庭場景。
這樣的好處在於,大曉能夠先從 B 端場景中收集足夠多的場景數據,提升世界模型能力的同時,還可以快速形成可以規模化的解決方案,幫助本體廠商進入場景。
近期,王曉剛和《智能涌現》聊了聊大曉的進展,以及他對具身行業的觀察。以下對話略經編輯:
智能涌現:今年具身和世界模型是一級市場最火的賽道。相較於大曉成立之初,這一輪的融資難度有變化嗎?
王曉剛:這個時間點融資的好處是,市場有熱度、有關注度。
但相對的,企業太多,有時候投資人不清楚每家公司的價值點在哪里。所以我們需要付出更多的解釋成本,幫投資人梳理清楚我們的發展路徑、技術思路。
智能涌現:大曉是2025年7月成立的。當時你會覺得大曉入局具身賽道晚了嗎?
王曉剛:我們選擇這個時間點入局,是因為看到了具身大腦研究範式的變化:原來的主流的VLA(視覺-語言-行動)範式存在侷限性,缺少對物理世界的結構化理解。世界模型恰好可以解決這個問題。所以在當時入局,我們有可能實現彎道超車。
而且在技術還不成熟的階段,此前大家在探索技術範式,尤其是具身大腦的過程中,浪費了很多數據、模型訓練、人力等資源。所以我們在去年入局可以少走彎路,反而有后發優勢。
智能涌現:相對而言,晚入局競爭會更激烈。
王曉剛:具身領域的產業鏈非常長,很難靠一家企業做完所有的事。所以在其中怎麼撬動更多資源,在整個具身產業鏈中把握生態位的主導權,是非常關鍵的。
去年大曉成立之前,我們和很多具身企業進行了訪談。我發現,當時具身企業普遍對進入場景,抱有謹慎的態度。
但場景在具身的發展中起到了關鍵作用。具身領域是按場景劃分的,只要在一個場景中進行了閉環的驗證,就很容易進行全球的規模化的複製。在規模化的複製過程中,就能讓數據採集的體量、硬件的規模提升幾個數量級。
智能涌現:為什麼具身公司不太願意進入場景?
王曉剛:一方面,技術成熟度還不高。另一方面,解決場景中的問題,涉及到大量的數據採集、研發等資源投入。加之目前很多新興的具身公司,本身對行業和場景的理解都不夠深刻。
所以很多公司的態度是:先融錢,等待一個行業成熟的時機點,再去跟上。但等時機點出現的時候,先機已經被別人佔走了。
智能涌現:在技術不成熟的階段,你們是怎麼和場景中的頭部客户談的?
王曉剛:找到技術的邊界很重要。我們要根據技術、軟硬件的成熟度,把現實的邊界找到。
如果進入To C場景,比如L4階段的自動駕駛,我的技術就不能有邊界。但是進入To B場景,加上各種可控條件,技術是可以落地的。
我們還得判斷:哪些場景是可以直接被解決的,哪些場景通過一些手段可以解決。此外,這些場景的解決方案還得具有可複製性。如果你找到的場景不具備可複製性,你做完這個,下一個還得定製化,這其實不是一個很好的選擇。
智能涌現:怎麼判斷一個場景具不具備可複製性?
王曉剛:舉個例子,我們優先深入的是零售、倉儲這些場景,因為他們的業務體系和需求,全國都是可以複製的。再比如酒店也是一個可複製的場景,全國有很多酒店,我們交付的都是同一套巡檢、導航機器人和機器狗。
智能涌現:這些場景的競爭會更激烈嗎?
王曉剛:雖然大家都瞄準了這幾個場景,但很多企業走得不深。這樣的后果就是,你的成本無法控制、無法邊際遞減。
你可以做個demo炫技,但它不具備規模化的前提條件。
智能涌現:怎樣的落地模式纔算得上「深入」場景?
王曉剛:首先,你需要有緊密合作的生態夥伴。比如,在無人零售的場景中,我們和商湯生態中的公司善惠機器人合作,給他們提供無人零售解決方案。
善惠首先會提出成本、續航、節排等要求。其次,在具體的複雜場景中,他們會給很多技術的反饋。這些要求和反饋,有助於我們形成數據閉環,在場景中快速迭代。
做完生態合作伙伴的「前期功課」后,我們也能夠知道哪些方案是必要的,哪些是可以省卻的,或者可以通過其他方案進行彌補。
等方案成熟,我們也能將業務合作拓展到零售相關的其他頭部企業,通過規模化把成本降下來。通過這一套打法,目前大曉能夠把解決方案的成本降低到行業的1/3。
智能涌現:之前你提到,大曉落地場景的規劃是:道路巡檢-無人物流-家庭場景。這個落地順序背后的考量是什麼?
王曉剛:一方面,我們考慮的是技術實現的難度。另一方面,我們遵循的還是先To B后To C的策略。因為C端場景規則邊界不強,存在很多非結構化的場景。但B端場景是受控的,能夠保障安全性。
所以在B端積累更多經驗后,我們再走向To C。
△大曉世界模型的家居場景。圖源:大曉機器人
智能涌現:創業初期你提出了很多新觀點,比如在VLA還是具身主流範式時,選擇了做世界模型,再比如提出「以人為中心的數據採集範式」。你怎麼判斷這套範式是可行的?
王曉剛:大方向上的判斷是非常確定的。首先,VLA與世界模型相比,只有后者這樣的生成式模型,才具備智能涌現的能力。所以我們做具身智能,第一天就選了世界模型方向。
其次,只有真人的數據,無論是採集的效率和規模,還是擬人化的真實性,才能達到訓練世界模型的要求。
但其中很多細節是在實踐過程中才逐漸變清晰的。比如做世界模型,一開始我們的主要關注點是生成能力。但實際場景中,世界模型不光要生成數據,還要去控制真機,通過機器人與物理世界進行交互。這對世界模型的物理智能、空間智能提出了更高的要求。
所以我們最近發佈了開源空間智能通用模型ACE-Brain-0,以及物理3D生成框架PhysX-Omni,來提高世界模型的空間智能和物理智能。
智能涌現:視頻生成模型、VLA等都稱自己為「世界模型」。你對世界模型的定義是什麼?
王曉剛:簡單來説,世界模型得具備三方面的能力:理解、生成、預測。只有同時具備這三個能力,模型才能自我演進、自我糾正、自我進化。
為什麼大家都説自己是世界模型?因為業界沒有針對世界模型的評價體系。比如,行業缺少對長時序複雜任務執行效果的benchmark。
一些所謂的「世界模型」只是宣傳了自己擅長的東西,但其實缺失了另外的能力。像VLA缺乏生成能力,視頻生成模型缺乏了對物理和空間的理解能力。
智能涌現:你們內部怎麼評測世界模型的能力?
王曉剛:我們正在聯合一些學術機構和具身公司,建立一個世界模型benchmark,其中的評測維度包括跨本體的泛化能力、模擬仿真的能力,這些維度最終指向的是衡量模型理解、生成、預測的能力。
智能涌現:大曉的世界模型Kairos最近迭代到了3.0。它的能力類比語言模型處於什麼階段?
王曉剛:還沒到GPT3.0。等到GPT3.0的階段,世界模型就能實現智能涌現,也意味着研究範式有較高程度的確定性。
目前我們還是按照「理解、生成、預測」三個維度來逐步迭代Kairos。最早的時候,Kairos主要用來做視頻生成,后面逐漸開始控制真機,相應的,我們也要提升它對空間和物理屬性的理解。
智能涌現:在當下世界模型發展的階段,數據的量、質量、標註,以及后續的評測等環節,哪個對模型能力的影響最大?
王曉剛:眼前世界模型還在0-1的階段,可供訓練的數據本來就很少。所以在這個階段,數據的量對效果的提升更明顯。當訓練數據增加了10倍、100倍,我立刻能看到模型能力的提升。
但等到世界模型出現智能涌現,就需要對數據進行精篩、進行精細化的標註。這和大語言模型的發展是類似的。
當下世界模型還沒有「智能涌現」,所以先要把數據的量鋪上去,再反過來解決質量問題。
智能涌現:要實現「智能涌現」,世界模型需要多少的訓練數據?
王曉剛:我們期待的是要達到千萬小時的量級。
原來真機採集的數據規模只有10萬小時的量級,現在我們用人採集,基本上能達到百萬小時。
智能涌現:提升數據採集量級的關鍵是什麼?
王曉剛:還是場景的規模化,所以其中就需要產業方進入。
其實對於產業方而言,數據採集也是他們進入具身行業的切入點。因為他們有場景,如果做數據採集,馬上就可以變現,立刻產生價值。接着通過訓練模型,再引入機器人,產業方也能提高場景的效率。
智能涌現:如今行業對機器人的一種態度是:買來只能當吉祥物,沒有實際用處。
王曉剛:除卻質量問題,很重要的一點在於具身公司沒有針對特定場景進行深度的迭代和打磨。
現在的機器人公司,每年不斷發布新的型號,但這些型號不是針對應用場景迭代的,所以原有的問題沒有解決,反而會出現新的問題。
問題不收斂,就會造成返修率的增加,機器人工作幾百個小時,就會出問題。所以當下機器人的規模化推廣面臨很大的問題。
智能涌現:讓具身公司根據場景迭代的解法是什麼?
王曉剛:等場景能夠規模化,硬件可以量產,就會倒逼具身公司將資源集中在針對場景的迭代上。
智能涌現:如今行業中還有哪些難題?
王曉剛:首先,今天模型、數據、硬件三者的結合是不夠的。
基座模型廠商、世界模型公司,還有做數據的公司,大家都各做各的數據採集方案。但未來本體是靠數據來驅動的,而不是靠真機或者物理模型的規則。
所以這些問題就很關鍵:怎麼從人身上採集數據?採集哪些數據去驅動硬件本體?硬件本體怎麼設計才能符合人的行為要求?一旦設計過於複雜,人無法做相應的動作,將來就沒有數據可以驅動本體。
美國的Figure、特斯拉,走的是一條高度集成、垂直整合的技術路線。他們把模型、數據、硬件都自己做了,因此內部迭代的效率會更高。今天我們就要找到一種模式,讓三者有比較好的結合。
其次,具身和場景的結合,當下面臨很多困境。場景其實是中國的優勢,不少下游場景都具備可複製性,未來具身落地的速度會很快。
具身想要「打穿」場景,需要很多行業Know-How。但不少場景中的產業方,又不具備具身方面的知識和技術儲備。所以我們需要找到新模式,讓硬件、大腦和場景三者強強聯合。
智能涌現:什麼樣的「新模式」?
王曉剛:一方面是和行業頭部企業形成戰略性的合作關係。我們背后的商湯,有幾千家客户,涵蓋非常多的行業方向。抓住頭部客户資源后,我們的數據採集和解決方案就能規模化。
另一方面,我們也走訪了很多本體廠商,考察他們的設計思路,和他們形成深度合作,幫助他們進入場景。
智能涌現:你多次提到目前本體廠商進入場景不夠。這是不是意味着你們作為上游的模型廠商,無法得到足夠的數據迴流?
王曉剛:是的。所以我們還是要和本體廠商有充分的交流,去走訪、探討他們的技術細節。
當下在數採方案上,我們和本體廠商還有很多認知差異。
比如我們會讓數採團隊的成員戴上能傳感觸覺信息的手套,但是有的本體廠商關於「手」的設計方案不是人手,而是夾爪或者只有三指。這時我們的數採方案就要去兼顧相應的設計。
智能涌現:聽上去現階段你們要遷就本體廠商的方案,但你之前提到要讓「模型去定義本體」。相較於「本體定義模型」,它有什麼好處?
王曉剛:就像我之前説的,未來本體還是得靠數據去驅動。如果硬件設計得複雜度很高,未來靠什麼數據去驅動?
以及,硬件本體的開發周期是很長的,不像模型軟件那樣可以快速實現。因此硬件需要根據模型的迭代方向去提前佈局。誰能在迭代方向上提前思考、提前佈局,就能贏得先機。
現階段最好的合作方式就是本體和模型廠商深度綁定。當本體廠商設計下一代新型機器人時,我們也能提前把相應的數採方案、模型方案梳理清楚。
智能涌現:數據採集、模型迭代、場景拓展,當下你怎麼給這些業務排優先級?
王曉剛:數據和場景,是比較關鍵的。因為具身的產業鏈很長,所以你需要快速佔據一個生態位。
所以在這個時間點,我們正在用自己的解決方案,跟地方政府、場景中的頭部企業形成緊密的合作。這是戰略的制高點。
模型本身還在演進,不一定那麼急迫。但做模型,又有助於我們去抓住場景中的頭部企業,因為我們比硬件本體離數據、離場景近。所以在迭代模型的過程中,我們還是得抓住場景,而不是悶在實驗室里。
歡迎交流!