繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

死磕機器人大腦的北大副教授,和我們聊了聊具身領域最大的「偏見」

2026-01-24 21:31

文|富充

編輯|蘇建勛

2026年,具身智能會有怎樣的分化?北京大學計算機學院副教授、「智在無界」創始人盧宗青向我們拋出一個判斷:

「軟硬分化。」

軟,是模型大腦,硬,是機器人本體;分化,是不同的公司各有所長,各司其職。

「智在無界」所在的北京鼎好大廈,是個被智源研究院、零一萬物、銀河通用等一眾明星AI機構坐擁的大樓。在這里,人工智能的非共識,每天都在發生。

盧宗青的觀點也和具身行業發展現狀大相徑庭。如今,獲得高估值的具身創業公司,不論是已成為「獨角獸」的智元機器人、銀河通用,還是融資勢頭強勁的星動紀元、星海圖,都在執着地追求一件事:軟硬一體,做全棧。

儘管如此,盧宗青與他於2025年創立的「智在無界」,還是選擇「逆勢」做一家模型公司,只研發機器人大腦,並不涉足硬件製造。

智能涌現獨家獲悉,智在無界已於近日完成天使輪,融資金額為數千萬元,由拉卡拉旗下考拉基金領投,領航新界、靈心巧手跟投,老股東聯想之星和星連資本持續加註。

「具身行業對‘純軟’這件事,有比較大的偏見,國內是這樣,國外也是,」盧宗青的態度單刀直入。他舉了個例子,軟硬都做的美國具身智能創業公司Figure,比只做具身模型的Physical Intelligence估值要高上數倍。

不過,2026開年發生在美國機器人圈的一筆大交易,為「一級市場重新定價具身模型公司」這件事開了個好頭:1月14日,機器人模型初創企業Skild AI完成14億美元C輪融資、估值翻了三倍后達到超 140億美元,成為2026年機器人行業最早誕生的千億獨角獸。

這筆交易把問題擺到檯面上:如果模型公司做出不同本體、任務通用的大腦,具身智能企業是不是沒必要把整條技術棧都背在自己身上?

智在無界想證明的正是這一點——做跨品牌、跨形態的具身智能模型。

目前,公司已推出靈巧手操作模型Being-H系列,可以控制雙足機器人移動和操作的模型Being-M正在研發中。最新發布的Being-H0.5模型已能夠控制30種不同機器人;因為經過推理優化,端側部署在英偉達Orin-NX等常用機器人小型芯片上,也可以實時跑起來。

目前,公司客户已包括PND、靈心巧手等硬件公司。PND近日與智在無界聯合發佈的Adam-U Ultra機器人,就是「軟硬協作」的典型故事。

接入Being-H后,PND高自由度機器人可以「開箱即用」整理桌面、分揀掃碼等通用技能;再配合智在無界的增值服務Being-Dex做少量數據的后訓練,數小時就能學會新任務。

實現上述能力的核心,在於超3萬小時預訓練數據——盧宗青介紹,這已是當前全球規模最大的具身智能模型訓練數據集。這背后,是一套獨特的 「人類動作視頻」 方案。

(《智能涌現》注:此處「最大」特指用於具身智能模型預訓練的數據集。)

這套方案可以在人類正常工作生活中,通過頭戴攝像頭,錄製第一視角的手部動作視頻,因此數據規模大、成本低,更能完整記錄人類複雜操作。相比之下,多數全棧公司依賴的「遙操作採集」模式,則因需人工操控特定機器人,存在成本高、規模小、數據與硬件深度綁定的侷限。

△頭戴攝像頭可以在不干擾操作者正常工作的情況下,錄製第一視角的手部動作視頻,圖片:採訪人提供 

2023年底,盧宗青就開始使用該數據思路做模型訓練。他記得,當時這一方案並未引起太大反響,業界還是以仿真和真機數據為主。但2025年起,包括特斯拉Optimus在內,更多機器人公司開始採用人類視頻數據方案。

盧宗青判斷,2026年行業內會有更多公司認清「軟硬分化」的價值。原因在於背后一筆經濟賬:純自研一個具身模型,算上買卡、招人等成本,年開銷高達數千萬甚至上億;相比之下,外採一臺機器人「大腦」的一次性成本只需幾萬元。

在他看來,「軟硬一體」因為佈局全面而更受一級市場青睞,但現實是技術棧太長——做模型和做硬件本就是兩套能力體系,一家公司很難兩頭都做深。

過去一年里,也因此出現一些「爲了全棧而全棧」的公司:套殼VLA、做出看似能干活的Demo,拿到了融資,卻無法在真實場景里落地賺錢,或因模型套殼被曝光而遭到技術能力的質疑。這促使更多創業者開始審視全棧路線的難度與性價比。

「我不想把資源分散在不擅長的硬件上。」盧宗青説,技術還沒收斂,探索更要保持輕量,這也是他選擇死磕「大腦」的原因。

△ 盧宗青,圖片:採訪人提供

以下為《智能涌現》與盧宗青的訪談,內容經作者整理:

具身模型與本體,分工將會更明確

智能涌現:國內頭部具身企業還是以「軟硬一體」為主,智在無界只做模型,會在融資時遇到困難嗎?你怎麼看這個情況?

盧宗青:智在無界正式開始運營是在2025年5月,當時純模型的路線想要融資還是不容易的。其實美國市場的情況也類似,軟硬都做的Figure會比只做具身模型的Physical Intelligence估值要高。

(作者注:2025年9月,Figure估值約為390億美元;2025年11月,Physical Intelligence估值約為56億美元。)

我認為原因是,具身是一個全新的行業,最初大家也不知道未來的產業鏈的形式會是怎樣的,所以早期投資人更願意把錢投給什麼都做的企業。

但估值只是暫時的,它從本質上不代表公司的業務會做好。我想要做的是OpenAI那樣的企業,一開始更偏向科研,能第一個做出「ChatGPT」,然后開展商業。

智能涌現:怎麼纔算「公司業務做好」?或者説,一個好的具身大腦模型,核心解決什麼問題?

盧宗青: 我認為是通過預訓練模型,為機器人賦予一種基礎的「運動與操作基因」。

人雖然不像馬、鹿等動物,一生下來就有很強的運動水平,但人類的基因賦予了我們較好的運動能力,通過后天的訓練可以激發出來。機器人也是一樣,預訓練模型相當於賦予了機器人「開箱即用」的初步運動能力。

智在無界也會基於具體任務,到不同的機器人本體上做后訓練,如果預訓練的大腦模型能力強,那后訓練加部署的環節里,大概30分鍾就能讓機器人學會一個新任務。

智能涌現:但估值高會帶來更多資金的儲備,所以可以做更多技術上的探索,這在技術沒收斂的階段能否加大「做好模型業務」的概率?

盧宗青:但估值高了也會有惡性循環,企業可能會去嘗試各種技術和商業化的路線。投了各種各樣的錢,但沒做出成果。至少,估值和業務成敗不是絕對的關係。

智能涌現:所以現在能感受到一級市場的變化嗎?你認為原因是什麼?

盧宗青:現在可以看到具身模型公司的估值越來越貴了。

原因是,從業務層面來看,現在很多機器人本體公司會來找我們合作。大家算過「自研模型能不能賺錢」這筆賬之后,逐漸意識到,具身智能本體公司做不做模型本質上是個商業行為。我認為行業會越來越走向軟硬分化的形態。

智能涌現:從算賬的角度來看,訓一個好的具身模型,一年要花幾千萬至一億元?

盧宗青:對。一個模型大概需要10個人,年薪就要2000萬元。算力也很貴,如果是100臺機器,每臺機器8張卡,用A800的卡,每個月需要大概300萬元;如果H200的卡,每個月的成本就要900萬元了(包括存儲)。

這還沒有算數據和其他的成本。現在最便宜的第一視角視頻數據,大概是幾十元一小時;動捕數據大概在幾百元一小時。

智能涌現:智在無界現在的付費模式是什麼,為什麼説比企業自研要便宜?一個硬件廠商,會不會擔心軟硬分化以后,自己因為沒有軟的能力,而被模型公司「坐地起價」?

盧宗青:現在收費是一臺機器人,部署要花一筆一次性的License費用,在幾萬-十萬元,對於出貨量不多的公司來説還是小於自研成本的,此外我們還有根據數據量收費的后訓練服務Being-Dex。

當本體企業出貨量達到一定程度的時候,可以有類似Saas年包的付費方式。到時候,模型公司也會有多家,大家有競爭,本體廠商就不怕某一家「坐地起價」。

智能涌現:如果技術收斂了,不再用花那麼多的成本搞研發了,本體公司會不會自己就把模型的業務做了,這樣會對純模型公司的生意造成威脅嗎?

盧宗青:如果真到了技術收斂、一個通用模型能做很多事情的階段,機器人會進入家庭。那時我反而認為模型公司的市場會更大,甚至可以做 To C。

屆時可能會出現像微軟那樣的大軟件公司;也可能像華為那樣同時具備軟硬產品。到了那個階段,我們也可能通過 OEM去做真正的機器人產品。

△Being-H模型控制的PND機器人正在給快遞掃碼,圖片:採訪人提供

2027年,100萬小時數據量涌現模型能力質變

智能涌現:你此前一直從事的是計算機領域的研究,怎麼開始和具身智能交叉的?

盧宗青:2023年,我通過多模態大語言模型去玩開放世界遊戲《荒野大鏢客2》,但發現模型的任務理解和動作完成能都十分有限。我當時意識到,模型交互能力弱,根本瓶頸在於缺乏對視覺和空間的理解,要提升這一點,與真實世界的交互數據必不可少。

這成為我最初投入具身智能模型研究的契機。

智能涌現:你説智在無界正式創立后不久,就利用2025年暑假去好幾家工廠調研具身智能落地情況。發現了行業怎樣的問題或者現狀嗎?

盧宗青:印證了之前的判斷,就是現階段的具身智能遠遠沒到可以落地真干活的水平,核心卡點在泛化性。

比如,束線整理、精密組裝這類動作非標且複雜的工序上,具身智能「獨立自主完成工作」的能力仍然有限。行業對外講的「工業場景落地」,大部分還停留在演示或短周期的POC(概念驗證)里。

智能涌現:原因是什麼?

盧宗青:原因一部分在硬件,缺穩定好用的高自由度靈巧手;靈巧手也缺觸覺,這意味着接觸點等等重要的力反饋信息是缺失的。

另一部分原因在模型,過去業內更多用二指夾爪,行業還沒研發出真正能干活的靈巧手模型。

智能涌現:你早於業界共識提出採用人的視頻做預訓練數據。智在無界發佈的第一個模型時,業內反饋如何?

盧宗青:2025年七八月份,我們做出了第一個靈巧手模型 Being-H0,業內反饋還不錯。英偉達總部也專門派人過來,瞭解這個模型在算力方面的細節。

當時大家普遍覺得這是個新思路,那時候業內主要還是在用以機器人為主體採集的數據。我們是第一個採用大規模人類視頻數據做模型預訓練的,Being-H0用了大約100萬條第一人稱視角下、人手操作的視頻。

智能涌現:你從2023年底開始用人類視頻數據的技術路線訓練具身模型,行業去年也是緊鑼密鼓地迭代各種技術方案,但為什麼至今還是沒做出一個泛化性好、真能干活的具身模型?

盧宗青:我們在具身模型的訓練上花了大約兩年時間。過去的問題中,最本質的有兩點,一是在於數據不夠多;二是模型訓練還缺乏很好的範式。

智能涌現:具身智能要具備泛化能力,多大量級的數據纔夠?

盧宗青:我們目前積累的數據在四五萬小時左右,包含第一人稱視頻和一部分機器人真機數據。

我認為,數據規模可能需要達到100萬小時量級,才更有可能讓機器人能夠快速學會複雜的新任務,具備真正的泛化能力,從而在產線上實際用起來。這個量級大概在2027年可以達到。

另外,數據來源不能只侷限於單一或少數場景。我們收集數據時,會注重多樣性,不同場景、不同任務的數據都在持續積累。

智能涌現:之前做了一兩年,才積累了四五萬小時的視頻,如何在2027年就把量堆到100萬小時?

盧宗青:過去視頻量級一直只有四五萬小時,原因是當時技術路線還沒轉到「人的視頻」,所以很少有人系統地做這件事。

我們早期的數據一部分來自互聯網,比如用GoPro拍的第一視角;也有我們自己採集的,包括第一人稱視頻,以及用動捕設備捕捉的動作數據。

現在行業對視頻訓練數據的需求起來了,最近也出現了不少專門生產視頻數據的創業公司。我們這邊還有合作工廠提供數據,比如工人頭戴攝像頭工作時拍攝的手部數據。

智能涌現:你説,從方法論來看,訓練的大框架其實都差不多,真正的差異在細節和工程上,智在無界是怎麼做的?

盧宗青:智在無界在「預訓練-后訓練」雙層框架中,先在預訓練階段通過大量人類視頻讓模型模仿人類,理解視覺、文本,輸出人類動作。

在后訓練階段,將預訓練中基於二維畫面學到的信息,與物理空間對齊,轉成可以在物理世界中驅動機器人的控制信號,適配不同本體。

在這些環節中,我們做了一些細節的工程工作。比如,數據處理上,我們建立了一套自動化的數據處理工作流,整個過程基本無需人工干預。系統會自動爬取網絡上的視頻,調用模型標註視頻動作的文字描述,再將視頻中有用的片段截取出來。另外,我們還通過給視頻中的關節進行標註,讓不同來源、不同角度、不同清晰度的視頻里的二維動作畫面,都能統一進同一個3D空間里,最終整理成可直接用於訓練的「視頻-文字描述-動作」數據對。

后訓練階段,我們會更積極地探索多模態的融合,比如加入觸覺帶來的力反饋,補充模型學習需要的重要信息。

智能涌現:除了靈巧手大模型,聽説智在無界即將發佈一個適用於雙足人形全身的大模型,這個可以先大概介紹一下嗎?

盧宗青:這是我們做的多模態移動操作模型,Being-M 系列。它的數據會複雜一些,同一個動作,既包括第一和第三人稱視頻,也包括動捕數據,它們是對齊的。

我們在預訓練階段,先用模型把第三人稱視頻中人的姿態提取出來,再給這個動作配上文本標註。目前我們用大約1500萬個「文本 + 動作」配對訓練它,再配合人的第一視角視頻,相當於把視覺模態也加進來。

舉例來説,像「走路繞過面前障礙物」這種動作,我們既有全身動作和文字描述,也有人眼睛看到的第一視角視覺數據。把這些加在一起,就可以生成對應的動作序列;再用我們的動作跟隨模型 Being-W,控制機器人去跟隨剛纔模型生成的動作序列。

△Being-H模型控制的機器人正在將不同形狀的零件進行分揀歸納,圖片:採訪人提供 

套殼做Demo挺常見,但解決不了實際問題 

智能涌現:所以我們現在距離理想中能獨立工作、能泛化的具身模型還有多遠?

盧宗青:我要是能判斷還有多遠就好了(笑)。但我們在2026年1月推出的Being-H0.5靈巧手模型,會比半年前推出的Being-H0在泛化性以及跨本體性能上有非常高的提升。

智能涌現:那你認為模型能力產生質變,是會突然涌現還是循序漸進的過程?

盧宗青:不會是循序漸進的。可能會基於方法上的變化,或者是模型層面的變化。但從科研角度來看的話,不會是一成不變堅持做(現在的方法)就能做出來的。

智能涌現:新發布的Being-H0.5模型,表現如何?

盧宗青:Being-H0.5的預訓練除了包含大量視頻數據,也採用了來自30種不同構型本體的真機數據,實現了跨本體的大規模數據融合。

模型訓練完成后,可以同時部署5個不同本體。其中讓我覺得驚艷的瞬間是,用宇樹 G1 採集的快遞掃碼分揀任務數據訓出來的模型,首次上機就能直接讓PND的Adam-U成功執行同一個任務。

而且Being-H 0.5具備很高的端側部署速度,在常見的小型算力板Orin-NX上,能達到模型動作生成與機器人運動實時進行。

智能涌現:泛化性這件事如何評定?具身模型現在有比較公認的Benchmark嗎?

盧宗青:其實我們説的就是任務的成功率。現在業內有一些Benchmark,比如LIBERO、RoboCasa,不過具身的Benchmark還在迭代。

智能涌現:叫Being-H 0.5會和PI 0.5有關嗎?

盧宗青:無關,只是我們認為現在模型能力還在0.5的階段。

市面上確實有一些號稱自研模型的公司,其實是套殼PI 0.5的具身模型,只是在后訓練時加了一些數據而已。但我們不是。我們除了VL基座模型,剩下都是自己訓的。

智能涌現:現實很骨感,看Demo卻讓很多人誤以為機器人已經可以做很多事了,聽説Demo的拍攝也有很多「技巧」?

盧宗青:Demo的坑還是挺多的。比如沒有特殊説明自主操作的情況下,有些Demo里的任務可能是遙操控制的。

智能涌現:所以其實落地在工廠里真干活還是不容易的?

盧宗青:對,如果眼下就能落地干活,其實就不會建那麼多數採工廠,收集那麼大量的數據做訓練了。

智能涌現:最后討論一下當下的熱點方向「世界模型」吧。很多人認為這個技術會在2026年解決具身泛化性的問題,你似乎有不同看法?

盧宗青:我對「世界模型」這個説法一直比較謹慎,現在世界模型的定義很混亂。

如果它只是用來在訓練過程中提供一些合成數據、生成訓練數據,這當然可以,最多就是做一個「數據生成器」。

但如果最后講的故事,是把它部署到機器人上直接控制操作,那就會變得極其複雜、極其消耗算力。因為它需要把機器人每一步Action都考慮進去,生成一條軌跡,還要預測大量可能發生的情況。

用它來控制機器人還是非常有難度的。

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。