繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

等待具身大腦ChatGPT時刻

2025-12-10 16:52

原標題:等待具身大腦ChatGPT時刻

一年一度創投圈盛會如約而至。2025年12月2-5日,由清科控股(01945.HK)、投資界主辦,匯通金控、南山戰新投聯合主辦的第二十五屆中國股權投資年度大會在深圳舉行。本屆大會集結逾千位頂尖投資人、領軍企業家,打造兼具深度洞察與互動活力的「創·投嘉年華」,致力成為觀察中國科技創新的窗口。

本場《具身智能大腦的範式突破和落地》圓桌討論,由英諾天使基金創始合夥人 李竹主持,對話嘉賓為:

千訣科技創始人&CEO 高海川

流形空間創始人、CEO 武偉

以下為對話實錄,

李竹:感謝清科今年用一個特別創新的形式來做科技投資的討論和分享,由創業者一起參加,讓我們能更好地觀測最前沿的科技發展。

具身智能是過去幾年最熱的方向,也是貝塔最高的投資賽道。在這個賽道里,我們看到宇樹、雲深處做小腦非常成熟,但是大腦的問題一直沒有得到解決,大家都知道人的大腦是最複雜的,里面的一些機制甚至我們自己都不完全瞭解。前面有兩個具身智能的Panel環節也提到了,將來具身智能的發展肯定是以大腦為中心的。具身智能的大腦還遠遠沒有成熟,具身大腦Deepseek、ChatGPT的時刻還沒有來,基礎範式還沒有完全收斂。

但是最近的一些科學研究已經展示了巨大的可能性,我們今天邀請了兩位英諾投過的企業,千訣科技的高海川、流形空間的武偉跟大家一塊做交流,展示他們在這個方向上的研究,也讓大家瞭解未來在這個領域具身機器人如果真的裝上大腦會是什麼樣子。先請兩位簡單介紹一下你們在具身大腦方面做的工作。

高海川:千訣科技孵化於清華類腦中心,我們經常玩笑説,在具身智能行業我們可能是唯一看過人腦的,很多大腦是一種比喻,但我們做的是真大腦,大腦有什麼特點?我們自己不做機器人,而是要做一個缸中之腦,這個腦子可以讓所有機器人都用,而且不分形態,還可以持續學習,自我演化和分化分區,向各個形態、各個場景進行直接、快速適配。

目前,千訣在7大類機器人形態上完成了適配,而且都是跟頭部公司進行合作,包括人形機器人,人形單臂、人形雙臂、無人機、掃地機器人、球形陪伴的機器人等幾大類,分小類都有20多類,預計到明年會有10萬台設備接入千訣的大腦。

李竹:聽上去跟前兩個Panel討論的畫風有點不一樣,大家覺得未來3-5年大腦纔會投入應用,但是你們「大腦」已經投入使用,剛纔你説到分區、解耦合是什麼概念,簡單解釋一下。

高海川:人腦每個區在演化和進化方面都互不干涉,我們經常提到一個對大模型的觀察,不要輕易的對ChatGPT説「你好」,説一個簡單「你好、謝謝」非常耗電,ChatGPT這種端到端的模型,無論你説簡單的問題還是複雜的問題,所有的神經元要全部過一遍。人腦不是這樣演化的,如果人腦這樣演化早就餓死了,人腦承受不了這樣的功耗,恰恰是人腦的能耗比的約束驅動了通用智能的演化,在很多理論上都已經有相應的結果。這樣來做類腦計算,就是讓每一塊做獨立的優化和持續的演化,它們之間的連接是動態的,而不是一次性端到端的。

武偉:我之前是商湯的初創員工,在商湯做了10年時間,我們的團隊也是工業界最早研究世界模型的團隊。我們的底層世界模型技術孵化自清華大學電子系的FIB實驗室。流形空間主要聚焦於構建世界模型驅動的具身大腦,目前我們已經有一款對標李飛飛RTFM實時可以單圖生成可交互空間的基礎世界模型,並且也有應用於機器人大腦的世界模型,以及應用於無人機的世界模型。我們的體系不是像VLA第一步從視覺降維到語言域,通過語言方式驅動動作,而是進行空間智能的世界模型預訓練再部署到機器人大腦,是全新的技術範式。

李竹:實際上VLA也只能讓自動駕駛做到L3的級別,VLA這個路線做基礎模型、目前看做大腦是不太現實的,是這樣的嗎?

武偉:之前我們也做自動駕駛,我們的認知是,自動駕駛可能連VLA都不太需要,原因是自動駕駛語言的指令是收斂的,它其實共用同一個Prompt,把我從A點送到B點,自動駕駛更為廣泛的範式還是VA(Vision-Action),現在VLA在機器人領域火了一段時間,但它的泛化性有很大的問題,有很低的通信帶寬,第一步是把視覺降到語言域。從第一性原理考慮,一個人在屋子里面,如果只用語言描述指揮另一個人操作,其實是很難完成操作任務的。如果要把具身機器人任務泛化性做得特別好還需要通識教育,這種通識教育決定了機器人從0到60分的能力。如果不存在通識教育,所有機器人從0開始學,所需要的數據量永遠是不夠的,也是不經濟的。

李竹:這個事情為什麼是你們做?有做具身大腦的經驗和認知的人,在你們公司大概佔了多少?

武偉:世界模型也是比較新的技術,2022年開始我們團隊就在做世界模型,我們首席科學家所在的清華實驗室的團隊,也是最早做世界模型的學術界團隊。在國內,能夠做世界模型預訓練的人才,我們團隊佔50%以上,從世界模型的預訓練到世界模型應用於具身大腦的后訓練,都做了全覆蓋。

李竹:這兩個團隊有顯著的差異,海川是清華博士畢業,他們是研究類腦的,從類腦的思路找到了一條自己的路線,屬於前沿科技的探索者。武偉是從大廠出來,項目聚集了大廠里相關的人才,能夠在世界模型上有認知,能夠做預訓練,這是兩條不同的路徑,因為技術範式還沒有收斂,我們也都非常期待后面他們能實現的結果。

你剛纔也提到跟李飛飛做的世界模型對標,我們在世界模型、在具身大腦方面,跟美國的情況相比是什麼樣的?有沒有差距?

武偉:從我的認知來説,在具身大腦這一塊,今年國內和國外的差距其實不是在縮小,而是在變大,最主要的點在於,在國外企業獲得更多的資金,用了更多的錢做數據的Scaling,這些錢大多並不是花在本體上,更多是花在大腦上,每周有上十萬小時的數據能夠持續迴流回來。我感覺國內在大腦的投入是遠遠不夠的,在這個方向上,世界模型在國外也非常火,也有很多團隊都在用視頻數據作為具身大腦的預訓練,這個技術範式並不是最近出來的,而是從去年年底、今年年初就在做技術範式的切換,包括特斯拉Optimus團隊、Figue的Go-Big項目都在做視頻的預訓練。這里面有一個好處,能夠利用好很多互聯網已有的視頻數據,這類數據量非常大,是同構的數據源,覆蓋了人類很多基礎操作,非常符合基礎操作的預訓練,要用好這些數據,就需要有視頻生成、世界模型相關的技術棧。

這一類做世界模型的團隊一般來講有兩種範式,第一種是構建一個人能看得見的世界模型,就是做視頻級別的世界模型,它的輸出是所見即所得,能夠看得出來單圖生成的空間。

第二個範式是作為一個隱空間的世界模型。這類思考是人能感知到的世界還是比較稀疏的,人能看到的光譜處於有限的波段,很多事情不在能看到的波段,比如説看到風吹樹葉,樹葉在動,人看不到空氣在,如果沒有對世界的認知就不知道為什麼在動,不能侷限於僅僅視頻能看得到的顯空間。這類做隱空間的世界模型,不需要把整個未來世界解碼成人能看到的RGB的視頻空間,我們會認為具身往后發展,這一類隱空間模型可能會發揮很重要的作用,原因是即能高維的編碼世界知識,又能夠在比較快的算力芯片上把這個特徵壓縮到比較低維的空間,加快它的推理運行,這樣的話也脱離了一些圖形學顯卡的依賴,我覺得是一種比較平衡的方式。

在世界模型相關的技術體系上我們是對標World Labs的,從應用的落地方向,更多是瞄準對標特斯拉路徑,特斯拉其實也在構建自己的World Simulator ,特斯拉更多是Locomotion級別的一些交互,我們現在把一些 manipulation 級別的交互也訓到這個world model 里去了。我們對於World Model的定位是他會是機器人的Fundation Model,不僅是作為環境模型。

李竹:是不是把錢給你們就可以超越競爭對手?

武偉:在國內很重要的點是能迅速把錢變成模型。如果要讓它變成一個比較好的模型,還有一個比較重要的點是水面下的能力,即數據相關。

李竹:數據實際上是一個非常大的問題,缺少數據這個問題你們怎麼解決?

武偉:從我們的角度來説,我們認為好的機器人數據其實不是費用,而是一個資產,在數據上怎麼樣做投入都是算得過來帳的。重要的是數據要足夠通用,持續地被以后不同架構的模型吃進去。比如説最近比較火的UMI技術路徑,通過眾包的方式低成本採集人類的數據,這些數據不是通過遙操的方式採集,加以比較好的處理,可以泛化利用不同形態的機器人,就可以成為公司非常重要的資產。不像現在訓練一個VLA,本體如果迭代了還需要重複再採非常多的數據,它其實並不是一個資產,是這個型號機器人開發所對應的成本。我們的觀念是還需要找到這條數據處理管線,能夠讓它成為公司持續的競爭力。如果給我們足夠的錢,我們會投入在數據資產的建立上以及訓練模型GPU的消耗上,這方面反而是最需要投入的部分。

李竹:數據處理能力實際上是一個核心能力。

武偉:是的。水面之下這一塊也是基於計算機視覺10年以上的積累,我之前在商湯,我本人也拿過ImageNet華人世界冠軍,拿過目標跟蹤比賽VOT世界第一,互聯網視頻怎麼加以利用,要打標籤,我們內部有超過100個計算機視覺算子處理這些標籤,不需要人工,自動化處理。

李竹:大家都知道做世界模型或者做具身大腦要做預訓練,實際上國內能做預訓練的具身智能公司不多,跟數據關係挺大。要做預訓練,要求的數據量比較大。同時,具身智能的數據實際上是比較少的,千訣怎麼解決這個問題?

高海川:千訣已經完成第三代模型的預訓練,可能是具身智能友商中為數不多能做這麼多代預訓練的公司。中國不僅僅有類似於自動駕駛發展到這個階段所使用的範式,一段式或者是兩段式端到端的,自動駕駛在早期更多是走的一條解耦路線,類腦分化路線也是類似於解耦的路線。美國更多是走一段式或者是兩段式,特點是在科研性的論文上,學術性成果上跑的更快,但永遠到不了40分的狀態。如果是那種範式要落地做到60分的效果大概所需的數據量是現有產業加在一起都無法滿足的。如果説要完成這個階段的商業落地,肯定不能走一段式或者兩段式的範式,要做一條中國獨有的路線,類腦分區分化持續學習的路線,這條路線中國是走在前面的,進入了「十三五」「十四五」「十五五」的規劃。成年人有很多的能力,可能是大家對於具身智能所預期的能力。然而,現有的數據量僅僅對應3-5歲的小孩,數據量少是不是就不能做事情了?其實可以做的,3- 5歲小孩大腦經過分區分化初步的生長之后,運動控制、感知層和基礎認知層的進化也是基礎模型,可能稍微粗一些,這些腦區慢慢成熟起來,使得一個3-5歲的小孩也具備一些成年人所擁有的能力,儘管不是所有的能力,也使得它在這個階段馬上可以商業落地,並不需要把18歲成年人的大腦做出來才落地。在落地的過程中循序漸進、沿途下蛋、形成數據飛輪,過程中不斷的演化、自我迭代、自我生長,慢慢變成一個18歲的成年人。走這個路線更像是生物學的生長過程。而走一段式端到端或者兩段式分層端到端就像爬懸崖、直奔終點,類腦分區是走盤山公路。這就好比兩點之間直線最短,但兩點之間曲線或者折線最快的道理,我們認為走盤山公路可以把發展速度飆起來。

李竹:不同路徑,總能在山頂相遇。對數據的需求,用解耦的方式做預訓練,樣本效率可以提高到什麼程度?跟其他預訓練方式相比,需要多大的樣本量?

高海川:至少是一萬倍的提升。人主要的四個葉,最火的是額葉,大範圍環境感知和行為決策那個區,如果是端到端訓練所需要的數據量就是乘法關係,但如果拆開訓練就是多部分的加法關係,至少是這樣。每個葉內部還可以再繼續細分,所以具有大於1萬倍的樣本效率。現有數據量乘以這個倍率基本上達到GPT3的水平。

李竹:兩位在解決數據這個關鍵問題時採用不同的方式,千訣是採用類腦解耦的方式,把樣本效率提高了1萬倍。流形空間是有一個全棧數據處理的能力,能夠通過自動化的手段把包括視頻數據在內的大量的數據做很好的處理,最后用來做預訓練,數據問題就有答案了,我覺得這是非常重要的一點。

英諾在投資這兩家公司的時候,看到了他們在預訓練的時候用了大量的視頻數據,用視頻來訓練,實現場景理解,甚至跟場景里面的對象進行互動,我們看硅谷也有類似的,而我們還能做一些動作的預測。如果世界模型作為具身大腦的基座模型,它可能跟我們過去的語言大模型有區別。世界模型是否像語言大模型有黑盒效應,你們的看法是什麼?世界模型是可以預測的、可以互動的嗎?

高海川:偏白盒或者是完全白盒模型,這點在大模型出來之前就有很多做視覺模型理論研究的,比如MarcusHutter,從他之后的一些理論成果昭示了這一點。什麼叫世界模型?把全世界的方方面面全部記下來叫世界模型嗎?其實不是,世界模型是一種對世界極致的壓縮,當你要獲得一個對世界極致壓縮的東西,這個東西是什麼?其實是更脱離Attention Transformer 這個機構再往上的一種機制,從視覺原理上發生改變,它是一張因果推理的圖,Attention機制是基於在相關基礎性之上,會有幻覺,這個幻覺是根除不掉的,是由機制帶來的。如果要取得對世界的極致的表徵應該是因果關係的圖,那麼它也一定是一個白盒的模型。

武偉:我有完全不同的觀點。在我們的想法里視覺模型一定是黑盒模型,原因是還是需要數據驅動讓它學出來這個模型,一旦有一些先驗的知識在里面,一定會引入inductive bias,我們以前做AI的時候叫歸納偏置,一旦提前歸納一件事情放到已有體系之下,所表達的空間就會被限定,就會面臨Out-Of-Domain的問題,會有領域之外的知識無法被歸納。從這個角度來説,我們會覺得數據的分佈和多樣性反而是最關鍵的,分佈和多樣性決定了你所覆蓋的域有多廣,視覺模型要基於這些更多樣和分佈更廣的數據進行相對黑盒的學習。在這個過程當中,有可能在不同的訓練階段會注入一些人類的先驗知識,使得訓練更容易。但我們會堅信,最后走向量產的是人類相對無法理解的世界模型,要不然它的能力上限會被人的能力上限作為天花板。而作為一個人對空間的理解是非常受限的。

舉一個很有意思的實驗,去過太空的宇航員20%回來會有心理疾病,原因是前額葉會發生改變,在比較遠的距離看地球的時候會失去自我,這被稱為「總觀效應」,人對於空間的理解和認知存在比較低的天花板,我們相信機器一定能超過這個天花板。現在機器是往AGI的方式走,我們堅信機器一定是能ASI的,能超越人,還是不要設置人為的邊界去限定世界模型的學習。

高海川:因果推理不等同於加先驗,相關性推理可以大數據推動,因果推理也是大數據驅動,這也是拿過圖靈獎的結論。兩者有什麼觀點的統一呢?因果推理其實也有黑盒的部分,因果推理的機制本身是黑盒的,但是所呈現出來的推理的結果是白盒的。

李竹:現在技術範式沒有收斂,可以先往前跑。大家投資一個具身智能項目的時候,首先會問你能做到場景泛化嗎?能做到本體無關嗎?有足夠的數據訓練嗎?如果具身大腦成熟,會是什麼樣的實現路徑?怎麼樣能實現本體無關、場景泛化?從你們的角度看,這兩點能不能做到?

高海川:從我們的角度來看目前就能做到,不是説我們多厲害,客觀上存在很多腦區都是脱離本體就可以存在的,缸中之腦所激活的腦區是不是可以脱離形態而獨立存在呢?比如説我們認識眼前這瓶水,要擰開這個瓶蓋,是理解這瓶水本身的特徵,理解的不是手跟它交互的特性,執行擰瓶蓋這個動作可以不用人形機器人來做,甚至是無人機加個並聯機構,或者是狗加一個機械臂,都可以執行擰瓶蓋這個動作。對於客觀物理世界所涉及的在當前階段是可以做到一腦多形的。有一些做不到一腦多形會更偏於運動控制和小腦的部分。

武偉:我覺得決定它能不能做到比較通用的機器人有兩個層面:第一層是能不能有非常好的世界基礎模型預訓練,類比是人都會進行九年義務教育,在這個過程中我們會知道什麼叫桌子、什麼叫椅子,什麼叫空間,怎麼跟它進行交互,這是比較通識的教育。第一階段0-60分的教育,通過相對通用具身世界模型去解決,讓它具備相對比較強的通識教育,對空間的理解和交互能力,這一點其實是現在非常缺乏的,現在一上來就是0到100分去訓,成本特別高。預訓練的模型決定了它落地的上界。

第二層是能不能有軟硬一體的后訓練,類比成年之后大家選擇不同的職業,大家又會有一些職業教育,變成不同的工種。軟硬一體的耦合兜底它的下界,加上軟硬一體、加上強化學習,包括最近比較火的 Pi*0.6,它做的其實是過擬合的落地場景。這個RL后訓練的一些過擬合其實兜底了它的下界,包括你再用一些規則去過擬合,其實也是在軟硬一體兜底它的下界。我覺得要最后做成一些通用機器,從現在技術體系來看,這兩個階段可能都會需要。

李竹:就是后訓練。

武偉:具身世界模型的預訓練,以及加上軟硬一體的后訓練,都會需要。

李竹:千訣是怎麼做的?你們做完預訓練,也會有針對具體場景的后訓練嗎?

高海川:也會有,看具體的表現。在基礎架構上我們沒有把世界模型當成大腦的全部,現有的世界模型從嚴格意義的生物機理來説只相當於額葉加海馬體,沒有包括其他部分。在這幾大區域的外圍還有很多部分,包括剛纔所説的四個大區以外還有很多區域都沒有涉及。機器人大腦跟世界模型的關係其實是包含的關係,做機器人大腦就像做機器人整機,做世界模型可能相當於機器人的一個部件,到底是做世界模型一個區還是做一個完整的機器人大腦。這樣的區別會使得兩個都是做偏軟的具身智能大腦公司的基因有所不同,預訓練範式也會不同。

李竹:前面的圓桌討論環節有提到在邊緣側需要多大算力的問題,千訣現在已經有一些落地,有項目和廠商的合作。從你們的角度來看,計算效率現在能不能實現?在端側上你們怎麼解決這個問題?未來有沒有更好的解決方案?

高海川:我們認為在中期可能會有一些變化,和最長遠收斂那個期看得比較清楚的是應該是用類腦大模型+類腦芯片的方式去做的。目前制約端側主要是兩個矛盾點,功耗,能耗比。GPU算力跟功耗是成比較嚴格的正相關的關係,我們要在雲端跑的大模型放到端側就上百瓦,對一些機器來説有些難。第二就是性價比,靠規模或商業化的方式做下來,很重要的是能耗比,人腦其實不是這樣做的,人腦功耗為什麼不會那麼高,類腦芯片6瓦就能跑一個大模型,因為大部分腦區是不參與計算的。現在的端到端網絡有可能説「你好」就會把整個神經網絡都跑一遍,所帶來的功耗是人和機器人都受不了的。但人腦是不一樣的,人做不同功能,以及不同功能因為難易程度不同激發的神經元數量和部位都不一樣,其他大部分腦區都是待着不動的,所以功耗變得特別低。我們注意在這條技術路線上中國排第一,美國應該是排第二。美國觀察到這種落后的情況,最近開始加大投入,導致美國出現一批類腦公司試圖趕超中國。美國有美國的Pi,中國有中國的Pi,中國的Pi的最優路徑應該是類腦芯片+類腦大模型來做機器人大腦。

李竹:我們看到現在具身智能和機器人公司,拍視頻的時候往往需要下一個指令讓它來執行一個任務,千訣現在能做到什麼樣的程度?

高海川:我們實現「四個跨」的泛化,跨場景、跨物體、跨任務、跨形態。而且它的泛化是自主智能,即所賦能的機器人在新場景中不需要人類給它下指令。用户把電腦打開它自己就開始動了,人的指令跟它不是交互的,這里有世界模型的概念,機器人主要是跟客觀物理世界進行交互,人不下指令也可以做事情,僅靠一些出廠設置,有一些通識的預訓練機器人就可以開始工作了。歡迎大家關注千訣科技的公眾號,我們有很多形態的機器人在家里幫你打掃衞生、迎賓、看護,且我們發的所有視頻都是一鏡到底,可以長達24小時,沒有任何剪輯。

李竹:這是具身大腦應該有的樣子。你們覺得在未來多長時間內,具身大腦技術範式會收斂?大家會形成共識,能夠在實際中發揮更大的作用。

武偉:我算過一筆帳,如果讓一個多模態的大模型預訓練比較充分的話基本上需要萬億的Token,對齊到具身這一塊,大概就是一個Billion的clips,它跟數據量相關,如果僅依賴真實數據,還需要2年以上的時間。如果有更多的數據渠道補充進來,比如互聯網上已有的第一人稱視角視頻的補充,我們覺得2年以內有可能會收斂。但其實也對數據利用的範式、數據的管限有比較高的要求。

高海川:我跟武總的意見差不多。以現有的Benchmark來説應該是2年以內,現有的Benchmark包括桌面機械臂的操作,VLN、導航,然后把操作和導航拼在一起做一些事情。而如果我們要追求更加複雜的東西,讓機器人持續學習、持續演化,參考人腦來説,不僅是參數學習、參數預訓練,大數據還會用於模型的結構學習,每時每刻神經元都在動態變化,每説一句話意味着一個突觸激活了,一個神經元死亡了。也意味着具身大腦就像人腦,會漸近但永遠不會收斂到兩段式端到端,更不要提一段式。如果要追求讓具身大腦處理特別複雜的功能的話,可能最后收斂到一個分區的結構。

李竹:總結一下。在兩位做具身大腦的企業看來,實際上具身大腦收斂的時間超過我們投資人的預料,剛纔有嘉賓説3-5年已經是一個比較樂觀的預計,但是我們這兩位企業家給出的時間更短。就像展開了一幅千里江山圖,我們和創業者一起觀察整個具身智能的演進和發展會怎麼樣,會有漸入佳境的感覺。大腦該怎麼實現?可能是盤山而上,也可能是攀登懸崖,但是不管怎麼樣,這個高峰就在那里。有我們這些優秀工程師、優秀科學家的智慧,中國在具身智能這個賽場上肯定會領先於其他的國家。

未來,我們看好具身智能是比語言大模型更大的方向,更多的創業公司會在這里成長,也會出現更多的千億級公司。謝謝大家!

本文來源投資界,原文:https://news.pedaily.cn/202512/558451.shtml

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。