简体
  • 简体中文
  • 繁体中文

热门资讯> 正文

等待具身大脑ChatGPT时刻

2025-12-10 16:52

原标题:等待具身大脑ChatGPT时刻

一年一度创投圈盛会如约而至。2025年12月2-5日,由清科控股(01945.HK)、投资界主办,汇通金控、南山战新投联合主办的第二十五届中国股权投资年度大会在深圳举行。本届大会集结逾千位顶尖投资人、领军企业家,打造兼具深度洞察与互动活力的“创·投嘉年华”,致力成为观察中国科技创新的窗口。

本场《具身智能大脑的范式突破和落地》圆桌讨论,由英诺天使基金创始合伙人 李竹主持,对话嘉宾为:

千诀科技创始人&CEO 高海川

流形空间创始人、CEO 武伟

以下为对话实录,

李竹:感谢清科今年用一个特别创新的形式来做科技投资的讨论和分享,由创业者一起参加,让我们能更好地观测最前沿的科技发展。

具身智能是过去几年最热的方向,也是贝塔最高的投资赛道。在这个赛道里,我们看到宇树、云深处做小脑非常成熟,但是大脑的问题一直没有得到解决,大家都知道人的大脑是最复杂的,里面的一些机制甚至我们自己都不完全了解。前面有两个具身智能的Panel环节也提到了,将来具身智能的发展肯定是以大脑为中心的。具身智能的大脑还远远没有成熟,具身大脑Deepseek、ChatGPT的时刻还没有来,基础范式还没有完全收敛。

但是最近的一些科学研究已经展示了巨大的可能性,我们今天邀请了两位英诺投过的企业,千诀科技的高海川、流形空间的武伟跟大家一块做交流,展示他们在这个方向上的研究,也让大家了解未来在这个领域具身机器人如果真的装上大脑会是什么样子。先请两位简单介绍一下你们在具身大脑方面做的工作。

高海川:千诀科技孵化于清华类脑中心,我们经常玩笑说,在具身智能行业我们可能是唯一看过人脑的,很多大脑是一种比喻,但我们做的是真大脑,大脑有什么特点?我们自己不做机器人,而是要做一个缸中之脑,这个脑子可以让所有机器人都用,而且不分形态,还可以持续学习,自我演化和分化分区,向各个形态、各个场景进行直接、快速适配。

目前,千诀在7大类机器人形态上完成了适配,而且都是跟头部公司进行合作,包括人形机器人,人形单臂、人形双臂、无人机、扫地机器人、球形陪伴的机器人等几大类,分小类都有20多类,预计到明年会有10万台设备接入千诀的大脑。

李竹:听上去跟前两个Panel讨论的画风有点不一样,大家觉得未来3-5年大脑才会投入应用,但是你们“大脑”已经投入使用,刚才你说到分区、解耦合是什么概念,简单解释一下。

高海川:人脑每个区在演化和进化方面都互不干涉,我们经常提到一个对大模型的观察,不要轻易的对ChatGPT说“你好”,说一个简单“你好、谢谢”非常耗电,ChatGPT这种端到端的模型,无论你说简单的问题还是复杂的问题,所有的神经元要全部过一遍。人脑不是这样演化的,如果人脑这样演化早就饿死了,人脑承受不了这样的功耗,恰恰是人脑的能耗比的约束驱动了通用智能的演化,在很多理论上都已经有相应的结果。这样来做类脑计算,就是让每一块做独立的优化和持续的演化,它们之间的连接是动态的,而不是一次性端到端的。

武伟:我之前是商汤的初创员工,在商汤做了10年时间,我们的团队也是工业界最早研究世界模型的团队。我们的底层世界模型技术孵化自清华大学电子系的FIB实验室。流形空间主要聚焦于构建世界模型驱动的具身大脑,目前我们已经有一款对标李飞飞RTFM实时可以单图生成可交互空间的基础世界模型,并且也有应用于机器人大脑的世界模型,以及应用于无人机的世界模型。我们的体系不是像VLA第一步从视觉降维到语言域,通过语言方式驱动动作,而是进行空间智能的世界模型预训练再部署到机器人大脑,是全新的技术范式。

李竹:实际上VLA也只能让自动驾驶做到L3的级别,VLA这个路线做基础模型、目前看做大脑是不太现实的,是这样的吗?

武伟:之前我们也做自动驾驶,我们的认知是,自动驾驶可能连VLA都不太需要,原因是自动驾驶语言的指令是收敛的,它其实共用同一个Prompt,把我从A点送到B点,自动驾驶更为广泛的范式还是VA(Vision-Action),现在VLA在机器人领域火了一段时间,但它的泛化性有很大的问题,有很低的通信带宽,第一步是把视觉降到语言域。从第一性原理考虑,一个人在屋子里面,如果只用语言描述指挥另一个人操作,其实是很难完成操作任务的。如果要把具身机器人任务泛化性做得特别好还需要通识教育,这种通识教育决定了机器人从0到60分的能力。如果不存在通识教育,所有机器人从0开始学,所需要的数据量永远是不够的,也是不经济的。

李竹:这个事情为什么是你们做?有做具身大脑的经验和认知的人,在你们公司大概占了多少?

武伟:世界模型也是比较新的技术,2022年开始我们团队就在做世界模型,我们首席科学家所在的清华实验室的团队,也是最早做世界模型的学术界团队。在国内,能够做世界模型预训练的人才,我们团队占50%以上,从世界模型的预训练到世界模型应用于具身大脑的后训练,都做了全覆盖。

李竹:这两个团队有显著的差异,海川是清华博士毕业,他们是研究类脑的,从类脑的思路找到了一条自己的路线,属于前沿科技的探索者。武伟是从大厂出来,项目聚集了大厂里相关的人才,能够在世界模型上有认知,能够做预训练,这是两条不同的路径,因为技术范式还没有收敛,我们也都非常期待后面他们能实现的结果。

你刚才也提到跟李飞飞做的世界模型对标,我们在世界模型、在具身大脑方面,跟美国的情况相比是什么样的?有没有差距?

武伟:从我的认知来说,在具身大脑这一块,今年国内和国外的差距其实不是在缩小,而是在变大,最主要的点在于,在国外企业获得更多的资金,用了更多的钱做数据的Scaling,这些钱大多并不是花在本体上,更多是花在大脑上,每周有上十万小时的数据能够持续回流回来。我感觉国内在大脑的投入是远远不够的,在这个方向上,世界模型在国外也非常火,也有很多团队都在用视频数据作为具身大脑的预训练,这个技术范式并不是最近出来的,而是从去年年底、今年年初就在做技术范式的切换,包括特斯拉Optimus团队、Figue的Go-Big项目都在做视频的预训练。这里面有一个好处,能够利用好很多互联网已有的视频数据,这类数据量非常大,是同构的数据源,覆盖了人类很多基础操作,非常符合基础操作的预训练,要用好这些数据,就需要有视频生成、世界模型相关的技术栈。

这一类做世界模型的团队一般来讲有两种范式,第一种是构建一个人能看得见的世界模型,就是做视频级别的世界模型,它的输出是所见即所得,能够看得出来单图生成的空间。

第二个范式是作为一个隐空间的世界模型。这类思考是人能感知到的世界还是比较稀疏的,人能看到的光谱处于有限的波段,很多事情不在能看到的波段,比如说看到风吹树叶,树叶在动,人看不到空气在,如果没有对世界的认知就不知道为什么在动,不能局限于仅仅视频能看得到的显空间。这类做隐空间的世界模型,不需要把整个未来世界解码成人能看到的RGB的视频空间,我们会认为具身往后发展,这一类隐空间模型可能会发挥很重要的作用,原因是即能高维的编码世界知识,又能够在比较快的算力芯片上把这个特征压缩到比较低维的空间,加快它的推理运行,这样的话也脱离了一些图形学显卡的依赖,我觉得是一种比较平衡的方式。

在世界模型相关的技术体系上我们是对标World Labs的,从应用的落地方向,更多是瞄准对标特斯拉路径,特斯拉其实也在构建自己的World Simulator ,特斯拉更多是Locomotion级别的一些交互,我们现在把一些 manipulation 级别的交互也训到这个world model 里去了。我们对于World Model的定位是他会是机器人的Fundation Model,不仅是作为环境模型。

李竹:是不是把钱给你们就可以超越竞争对手?

武伟:在国内很重要的点是能迅速把钱变成模型。如果要让它变成一个比较好的模型,还有一个比较重要的点是水面下的能力,即数据相关。

李竹:数据实际上是一个非常大的问题,缺少数据这个问题你们怎么解决?

武伟:从我们的角度来说,我们认为好的机器人数据其实不是费用,而是一个资产,在数据上怎么样做投入都是算得过来帐的。重要的是数据要足够通用,持续地被以后不同架构的模型吃进去。比如说最近比较火的UMI技术路径,通过众包的方式低成本采集人类的数据,这些数据不是通过遥操的方式采集,加以比较好的处理,可以泛化利用不同形态的机器人,就可以成为公司非常重要的资产。不像现在训练一个VLA,本体如果迭代了还需要重复再采非常多的数据,它其实并不是一个资产,是这个型号机器人开发所对应的成本。我们的观念是还需要找到这条数据处理管线,能够让它成为公司持续的竞争力。如果给我们足够的钱,我们会投入在数据资产的建立上以及训练模型GPU的消耗上,这方面反而是最需要投入的部分。

李竹:数据处理能力实际上是一个核心能力。

武伟:是的。水面之下这一块也是基于计算机视觉10年以上的积累,我之前在商汤,我本人也拿过ImageNet华人世界冠军,拿过目标跟踪比赛VOT世界第一,互联网视频怎么加以利用,要打标签,我们内部有超过100个计算机视觉算子处理这些标签,不需要人工,自动化处理。

李竹:大家都知道做世界模型或者做具身大脑要做预训练,实际上国内能做预训练的具身智能公司不多,跟数据关系挺大。要做预训练,要求的数据量比较大。同时,具身智能的数据实际上是比较少的,千诀怎么解决这个问题?

高海川:千诀已经完成第三代模型的预训练,可能是具身智能友商中为数不多能做这么多代预训练的公司。中国不仅仅有类似于自动驾驶发展到这个阶段所使用的范式,一段式或者是两段式端到端的,自动驾驶在早期更多是走的一条解耦路线,类脑分化路线也是类似于解耦的路线。美国更多是走一段式或者是两段式,特点是在科研性的论文上,学术性成果上跑的更快,但永远到不了40分的状态。如果是那种范式要落地做到60分的效果大概所需的数据量是现有产业加在一起都无法满足的。如果说要完成这个阶段的商业落地,肯定不能走一段式或者两段式的范式,要做一条中国独有的路线,类脑分区分化持续学习的路线,这条路线中国是走在前面的,进入了“十三五”“十四五”“十五五”的规划。成年人有很多的能力,可能是大家对于具身智能所预期的能力。然而,现有的数据量仅仅对应3-5岁的小孩,数据量少是不是就不能做事情了?其实可以做的,3- 5岁小孩大脑经过分区分化初步的生长之后,运动控制、感知层和基础认知层的进化也是基础模型,可能稍微粗一些,这些脑区慢慢成熟起来,使得一个3-5岁的小孩也具备一些成年人所拥有的能力,尽管不是所有的能力,也使得它在这个阶段马上可以商业落地,并不需要把18岁成年人的大脑做出来才落地。在落地的过程中循序渐进、沿途下蛋、形成数据飞轮,过程中不断的演化、自我迭代、自我生长,慢慢变成一个18岁的成年人。走这个路线更像是生物学的生长过程。而走一段式端到端或者两段式分层端到端就像爬悬崖、直奔终点,类脑分区是走盘山公路。这就好比两点之间直线最短,但两点之间曲线或者折线最快的道理,我们认为走盘山公路可以把发展速度飙起来。

李竹:不同路径,总能在山顶相遇。对数据的需求,用解耦的方式做预训练,样本效率可以提高到什么程度?跟其他预训练方式相比,需要多大的样本量?

高海川:至少是一万倍的提升。人主要的四个叶,最火的是额叶,大范围环境感知和行为决策那个区,如果是端到端训练所需要的数据量就是乘法关系,但如果拆开训练就是多部分的加法关系,至少是这样。每个叶内部还可以再继续细分,所以具有大于1万倍的样本效率。现有数据量乘以这个倍率基本上达到GPT3的水平。

李竹:两位在解决数据这个关键问题时采用不同的方式,千诀是采用类脑解耦的方式,把样本效率提高了1万倍。流形空间是有一个全栈数据处理的能力,能够通过自动化的手段把包括视频数据在内的大量的数据做很好的处理,最后用来做预训练,数据问题就有答案了,我觉得这是非常重要的一点。

英诺在投资这两家公司的时候,看到了他们在预训练的时候用了大量的视频数据,用视频来训练,实现场景理解,甚至跟场景里面的对象进行互动,我们看硅谷也有类似的,而我们还能做一些动作的预测。如果世界模型作为具身大脑的基座模型,它可能跟我们过去的语言大模型有区别。世界模型是否像语言大模型有黑盒效应,你们的看法是什么?世界模型是可以预测的、可以互动的吗?

高海川:偏白盒或者是完全白盒模型,这点在大模型出来之前就有很多做视觉模型理论研究的,比如MarcusHutter,从他之后的一些理论成果昭示了这一点。什么叫世界模型?把全世界的方方面面全部记下来叫世界模型吗?其实不是,世界模型是一种对世界极致的压缩,当你要获得一个对世界极致压缩的东西,这个东西是什么?其实是更脱离Attention Transformer 这个机构再往上的一种机制,从视觉原理上发生改变,它是一张因果推理的图,Attention机制是基于在相关基础性之上,会有幻觉,这个幻觉是根除不掉的,是由机制带来的。如果要取得对世界的极致的表征应该是因果关系的图,那么它也一定是一个白盒的模型。

武伟:我有完全不同的观点。在我们的想法里视觉模型一定是黑盒模型,原因是还是需要数据驱动让它学出来这个模型,一旦有一些先验的知识在里面,一定会引入inductive bias,我们以前做AI的时候叫归纳偏置,一旦提前归纳一件事情放到已有体系之下,所表达的空间就会被限定,就会面临Out-Of-Domain的问题,会有领域之外的知识无法被归纳。从这个角度来说,我们会觉得数据的分布和多样性反而是最关键的,分布和多样性决定了你所覆盖的域有多广,视觉模型要基于这些更多样和分布更广的数据进行相对黑盒的学习。在这个过程当中,有可能在不同的训练阶段会注入一些人类的先验知识,使得训练更容易。但我们会坚信,最后走向量产的是人类相对无法理解的世界模型,要不然它的能力上限会被人的能力上限作为天花板。而作为一个人对空间的理解是非常受限的。

举一个很有意思的实验,去过太空的宇航员20%回来会有心理疾病,原因是前额叶会发生改变,在比较远的距离看地球的时候会失去自我,这被称为“总观效应”,人对于空间的理解和认知存在比较低的天花板,我们相信机器一定能超过这个天花板。现在机器是往AGI的方式走,我们坚信机器一定是能ASI的,能超越人,还是不要设置人为的边界去限定世界模型的学习。

高海川:因果推理不等同于加先验,相关性推理可以大数据推动,因果推理也是大数据驱动,这也是拿过图灵奖的结论。两者有什么观点的统一呢?因果推理其实也有黑盒的部分,因果推理的机制本身是黑盒的,但是所呈现出来的推理的结果是白盒的。

李竹:现在技术范式没有收敛,可以先往前跑。大家投资一个具身智能项目的时候,首先会问你能做到场景泛化吗?能做到本体无关吗?有足够的数据训练吗?如果具身大脑成熟,会是什么样的实现路径?怎么样能实现本体无关、场景泛化?从你们的角度看,这两点能不能做到?

高海川:从我们的角度来看目前就能做到,不是说我们多厉害,客观上存在很多脑区都是脱离本体就可以存在的,缸中之脑所激活的脑区是不是可以脱离形态而独立存在呢?比如说我们认识眼前这瓶水,要拧开这个瓶盖,是理解这瓶水本身的特征,理解的不是手跟它交互的特性,执行拧瓶盖这个动作可以不用人形机器人来做,甚至是无人机加个并联机构,或者是狗加一个机械臂,都可以执行拧瓶盖这个动作。对于客观物理世界所涉及的在当前阶段是可以做到一脑多形的。有一些做不到一脑多形会更偏于运动控制和小脑的部分。

武伟:我觉得决定它能不能做到比较通用的机器人有两个层面:第一层是能不能有非常好的世界基础模型预训练,类比是人都会进行九年义务教育,在这个过程中我们会知道什么叫桌子、什么叫椅子,什么叫空间,怎么跟它进行交互,这是比较通识的教育。第一阶段0-60分的教育,通过相对通用具身世界模型去解决,让它具备相对比较强的通识教育,对空间的理解和交互能力,这一点其实是现在非常缺乏的,现在一上来就是0到100分去训,成本特别高。预训练的模型决定了它落地的上界。

第二层是能不能有软硬一体的后训练,类比成年之后大家选择不同的职业,大家又会有一些职业教育,变成不同的工种。软硬一体的耦合兜底它的下界,加上软硬一体、加上强化学习,包括最近比较火的 Pi*0.6,它做的其实是过拟合的落地场景。这个RL后训练的一些过拟合其实兜底了它的下界,包括你再用一些规则去过拟合,其实也是在软硬一体兜底它的下界。我觉得要最后做成一些通用机器,从现在技术体系来看,这两个阶段可能都会需要。

李竹:就是后训练。

武伟:具身世界模型的预训练,以及加上软硬一体的后训练,都会需要。

李竹:千诀是怎么做的?你们做完预训练,也会有针对具体场景的后训练吗?

高海川:也会有,看具体的表现。在基础架构上我们没有把世界模型当成大脑的全部,现有的世界模型从严格意义的生物机理来说只相当于额叶加海马体,没有包括其他部分。在这几大区域的外围还有很多部分,包括刚才所说的四个大区以外还有很多区域都没有涉及。机器人大脑跟世界模型的关系其实是包含的关系,做机器人大脑就像做机器人整机,做世界模型可能相当于机器人的一个部件,到底是做世界模型一个区还是做一个完整的机器人大脑。这样的区别会使得两个都是做偏软的具身智能大脑公司的基因有所不同,预训练范式也会不同。

李竹:前面的圆桌讨论环节有提到在边缘侧需要多大算力的问题,千诀现在已经有一些落地,有项目和厂商的合作。从你们的角度来看,计算效率现在能不能实现?在端侧上你们怎么解决这个问题?未来有没有更好的解决方案?

高海川:我们认为在中期可能会有一些变化,和最长远收敛那个期看得比较清楚的是应该是用类脑大模型+类脑芯片的方式去做的。目前制约端侧主要是两个矛盾点,功耗,能耗比。GPU算力跟功耗是成比较严格的正相关的关系,我们要在云端跑的大模型放到端侧就上百瓦,对一些机器来说有些难。第二就是性价比,靠规模或商业化的方式做下来,很重要的是能耗比,人脑其实不是这样做的,人脑功耗为什么不会那么高,类脑芯片6瓦就能跑一个大模型,因为大部分脑区是不参与计算的。现在的端到端网络有可能说“你好”就会把整个神经网络都跑一遍,所带来的功耗是人和机器人都受不了的。但人脑是不一样的,人做不同功能,以及不同功能因为难易程度不同激发的神经元数量和部位都不一样,其他大部分脑区都是待着不动的,所以功耗变得特别低。我们注意在这条技术路线上中国排第一,美国应该是排第二。美国观察到这种落后的情况,最近开始加大投入,导致美国出现一批类脑公司试图赶超中国。美国有美国的Pi,中国有中国的Pi,中国的Pi的最优路径应该是类脑芯片+类脑大模型来做机器人大脑。

李竹:我们看到现在具身智能和机器人公司,拍视频的时候往往需要下一个指令让它来执行一个任务,千诀现在能做到什么样的程度?

高海川:我们实现“四个跨”的泛化,跨场景、跨物体、跨任务、跨形态。而且它的泛化是自主智能,即所赋能的机器人在新场景中不需要人类给它下指令。用户把电脑打开它自己就开始动了,人的指令跟它不是交互的,这里有世界模型的概念,机器人主要是跟客观物理世界进行交互,人不下指令也可以做事情,仅靠一些出厂设置,有一些通识的预训练机器人就可以开始工作了。欢迎大家关注千诀科技的公众号,我们有很多形态的机器人在家里帮你打扫卫生、迎宾、看护,且我们发的所有视频都是一镜到底,可以长达24小时,没有任何剪辑。

李竹:这是具身大脑应该有的样子。你们觉得在未来多长时间内,具身大脑技术范式会收敛?大家会形成共识,能够在实际中发挥更大的作用。

武伟:我算过一笔帐,如果让一个多模态的大模型预训练比较充分的话基本上需要万亿的Token,对齐到具身这一块,大概就是一个Billion的clips,它跟数据量相关,如果仅依赖真实数据,还需要2年以上的时间。如果有更多的数据渠道补充进来,比如互联网上已有的第一人称视角视频的补充,我们觉得2年以内有可能会收敛。但其实也对数据利用的范式、数据的管限有比较高的要求。

高海川:我跟武总的意见差不多。以现有的Benchmark来说应该是2年以内,现有的Benchmark包括桌面机械臂的操作,VLN、导航,然后把操作和导航拼在一起做一些事情。而如果我们要追求更加复杂的东西,让机器人持续学习、持续演化,参考人脑来说,不仅是参数学习、参数预训练,大数据还会用于模型的结构学习,每时每刻神经元都在动态变化,每说一句话意味着一个突触激活了,一个神经元死亡了。也意味着具身大脑就像人脑,会渐近但永远不会收敛到两段式端到端,更不要提一段式。如果要追求让具身大脑处理特别复杂的功能的话,可能最后收敛到一个分区的结构。

李竹:总结一下。在两位做具身大脑的企业看来,实际上具身大脑收敛的时间超过我们投资人的预料,刚才有嘉宾说3-5年已经是一个比较乐观的预计,但是我们这两位企业家给出的时间更短。就像展开了一幅千里江山图,我们和创业者一起观察整个具身智能的演进和发展会怎么样,会有渐入佳境的感觉。大脑该怎么实现?可能是盘山而上,也可能是攀登悬崖,但是不管怎么样,这个高峰就在那里。有我们这些优秀工程师、优秀科学家的智慧,中国在具身智能这个赛场上肯定会领先于其他的国家。

未来,我们看好具身智能是比语言大模型更大的方向,更多的创业公司会在这里成长,也会出现更多的千亿级公司。谢谢大家!

本文来源投资界,原文:https://news.pedaily.cn/202512/558451.shtml

风险及免责提示:以上内容仅代表作者的个人立场和观点,不代表华盛的任何立场,华盛亦无法证实上述内容的真实性、准确性和原创性。投资者在做出任何投资决定前,应结合自身情况,考虑投资产品的风险。必要时,请咨询专业投资顾问的意见。华盛不提供任何投资建议,对此亦不做任何承诺和保证。