热门资讯> 正文
2025-08-08 09:45
智能涌现制图
具身智能创业,要做苹果,而不是安卓。
文|邱晓芬
编辑|苏建勋
不管是刚刚结束的WAIC(世界人工智能大会),还是本周要开幕的WRC(世界机器人大会),如何在展会上识别一个机器人的真正实力?
具身智能公司“千寻智能”的联合创始人高阳,提供了这样几个tips:
对于号称能叠衣服的机器人,你可以尝试把衣服团成一团,随意丢在桌上,观察它是否能继续完成动作;或者是再给它裤子、外套,看它能否具备跨品类的泛化能力;
在机器人操作时,可以观察其动作是否足够丝滑流畅,而不是一卡一卡,这代表了思维和动作的协调性……
给我们提出指引的高阳,是当前具身智能领域炙手可热的创业者之一——从美国加州大学伯克利分校博士毕业后,他选择回国成为清华大学交叉信息研究院助理教授。
2023年,他又与前珞石机器人CTO韩峰涛一起,创办了具身智能公司千寻智能——韩峰涛硬件经验丰富,过往操盘过数万台机器人量产出货,高阳则有AI的研究基础,学术和产业界的搭配,使得千寻智能成为这波具身智能浪潮里的当红公司。
成立19个月的时间里,他们累计融资超10亿人民币。资方名单中,有华为哈勃、京东、宁德时代、顺为资本等等。
从高校的“象牙塔”迈入商业世界,高阳也要直面刻板印象对“科学家创业”的偏见,但他并不回避。
“科学家创业,某种程度上并不靠谱”,在他看来,科学家是追求真理、兴趣驱动的工作,而创业则着意于商业成功。“我在不断承认自己的局限性,我知道我不擅长什么,尝试去弥补”。
高阳将创业比喻为“一种游戏”,而那些与投资人、客户的交流,都是游戏里升级打怪的过程。他见过上百位投资人,开始的时候由于技术讲解得太晦涩,“把人讲睡着了”,但高阳能在得到反馈后迅速调整,“现在和投资人打交道就变得更熟练了,这是我喜欢的成长的过程。”
在这位年轻创业者的办公室里——他的电脑显示器上还贴着卡皮巴拉小公仔,高阳与《智能涌现》交流了他从科学家转到创业者的心路历程,以及对于具身智能技术路径的一些看法,以下是交流实录(略经摘编)
智能涌现:机器人领域,你和韩总的对搭档算是一个不错的组合:一位是软件方向的科学家,一位是硬件经验很足的企业家。你当时挑选合伙人的标准是什么?
高阳:我当时想了蛮久的,关于具身智能到底应该怎么去卖给客户。我到今天为止一个比较obvious的结论是,得做软硬一体,得做具身智能领域的苹果,不能做安卓。
因为技术初期,跨本体能力一定是比较弱的,把软件和硬件一起做好,在无数的行业初期都是这样的。比如个人电脑最开始,像IBM,它做硬件也做软件,可能过了三四十年,大家才逐渐软硬去分工。
我自己做软件做的很多,但硬件基本没有做过,所以我觉得把硬件和软件两方面都做得很强,在这个企业的前30年特别重要。
另一方面,其实很多做硬件的人不拥抱变化,或者说他们没有意识到变化。但是韩总在非常早的时候就意识到这个变化,跟我是想到一块去了。
智能涌现:您2023年是看到了什么,才有了这种机器人创业的想法?
高阳:主要是看到ChatGPT对于学习范式的转变。原来ChatGPT出来之前,我自己都不信openAI天天搞的这些玩意儿,包括Berkeley很多很senior的教授都觉得这是扯淡,但是就直到他们做出来了GPT-3.5,我们就反思了一下,觉得自己之前想错了。你顺这个逻辑去推演,具身智能它是一个必然的现象,只是需要一定的时间。
智能涌现:你们2023年就决定机器人一定是软硬一体的,但是现在也有头部机器人公司对大脑依然是忽视的,您怎么看?
高阳:头部公司有他自己的逻辑,他的逻辑在于,他非常擅长去做硬件,靠卖给教育客户已经能活得很好,可以通过这个上市了。他最佳的solution就是,先稳固教育市场,不要被别人抢了,因为现在有很多其他公司在尝试去做这一块生意。等上市之后,他慢慢去做别的事情,一个公司很难同时做很多事情,尤其是当教育市场已经有了激烈的竞争。
智能涌现:如果我做一个非人型的硬件,它是一个新形态的本体,这里面会不会有只做本体的公司的成长空间?
高阳:本体的设计跟AI的需求是强相关的。我举个例子,我做了一个本体,比如我伸长胳膊的时候,逆解失败了,导致我拿不到桌上这个东西,这种问题很常见,如果不把这个硬件和AI联合开发的话,你是没有办法意识到这个问题的。
智能涌现:如果只是从这个行业来看,它的市场空间容纳不下第二个这种公司了?
高阳:我觉得很难容纳。
从科学家到做管理,是一种“游戏”
智能涌现:当时吴翼老师让你从Berkeley回来的时候,你就打算创业,我记得你曾经提到,你觉得回来做科研会更有挑战?
高阳:当时就是想回国做研究,那时候没有现在这种技术变革的机会。当时我另一个选择是,在美国去大厂里面做research engineer。但那种路线就是别人给你plan好了,就这么一点点事,你把它做好就行了。
但是做教授的话,相当于实验室可能刚开始,什么东西都没有,也没有人,你要把所有东西都从头build起来,是从0到1的挑战。所以我大概是从2023年后半年开始创业,那时候是我回国的第三年左右。
智能涌现:我感觉你不只是在科研的角度去考虑事情,好像是从business的角度去思考。
高阳:对于怎么把技术做到让每个人去使用,我非常感兴趣,所以我就开始去思考商业层面上,怎么能把机器人做好,然后再推导出来要软硬一体,然后再去选择谁跟我一起来创业。
智能涌现:您为什么认为管理是一种技术?因为技术会比较一板一眼,比较理性,但是管理也是有一些感性的成分。
高阳:管理不是一个严格意义上的技术,它可能是技术和艺术之间的中间的状态,但是管理是有迹可循的,但是又不像理工科一样只要follow这一套就没问题了,它还是需要一些灵机应变的地方。
智能涌现:您之前提到,科学家创业不是特别靠谱。那你自己去实践的时候,怎么去补充起这些额外的能力?
高阳:我先讲一下为啥不靠谱。科学家追求真理,是兴趣驱动的工作。但是创业的话,最重要目标是做出来一个产品,很多时候不是关乎于真理,而是关乎怎么去服务好客户,不同客户可能有很多不一样的需求指标和维度。
在这个过程之中,你要用公司的形态去达到这个目标,里面也有很多专业的技术,比如怎么去搭建团队、把这个公司当做一个成长的人去培养。
我肯定不能说我100%会成功,只能说我在不断去承认自己的局限性。我知道我不擅长什么,然后我再尝试去弥补。
智能涌现:具体到您个人,您就是怎么完成科学家身份到创业者身份的转变?
高阳:我觉得就是承认自己的局限性,去开放学习创业这一套,去用商业公司的成功去drive整个东西,而不仅仅是对真理的探索。
智能涌现:你享受这个过程吗?
高阳:我觉得我还挺享受的,它是一个挺有意思的游戏,也有很多lesson。其中一个lesson就是,我最开始跟投资人讲的偏事实向,我讲的很精确,但是大家很困,很无聊。
然后我意识到好像不能这么讲,需要用一个更加形象生动的方式去给他们讲明白。类似于这种lesson有很多。
智能涌现:这个过程你也享受?
高阳:客观世界里,这是我所需要完成的。只要我想做好这件事情,我就得经历。
智能涌现:你见了多少投资人?你有统计过吗?
高阳:没统计过,但可能有一两百个,然后每一个人,你都得给他们讲一讲。
智能涌现:这个过程中,你会如何不断修正自己和投资人接触的方式?
高阳:我觉得反馈非常重要,否则你不知道自己什么方面做的不好。现在和投资人打交道就变得更熟练了,这是我喜欢的成长的过程。
智能涌现:你觉得这对于你来说,会是一个比较大的挑战吗?
高阳:我觉得还好,它可能就像任何一项技术一样,它只不过是一个特殊的技术。
智能涌现:现在这个阶段,用Transformer做预训练已经是共识,但不知道在各家工程化的后期,效果会有明显的高下之分?
高阳:我觉得就是您可以去WRC现场看一看,可能理论说了千千万,大家还得自己去体验一下。比如,你能不能跟它有一些交互?你把衣服团一团扔给他,看机器人能不能重新叠好。
智能涌现:这可以成为我们看机器人看展的一个指引。
高阳:因为机器人是一个很庞大的系统,所以你很难搞清楚谁更好。我觉得就是最好方法就是你自己去体验,看看各家的模型到底能干啥。
智能涌现:大家今年都在说VLA,怎么去判断各家VLA效果的好坏?
高阳:一个是算法。比如有一些VLA没有办法去分解任务,像千寻的VLA有一个快慢系统,可以把动作做得很流畅,没有快慢系统的机器人,动作就会生硬、卡顿。
另一方面是数据。大模型需要消耗很多数据去训练,我们自己做的模型会用互联网上的人类视频数据进行预训练。而一些VLA无法在人类的视频上做预训练,性能就会比较差一些。
从技术角度来讲就是这两点。算法有什么样的特点,用什么样的数据去训练,数据的清洗处理配比,这些都会影响效果。
如果从观感来讲,就是机器人能做多复杂的任务。比如,有一些模型只能做比较简单的任务,我们叫pick and place。但是像千寻的模型,就可以做复杂如叠衣服的动作,你可以跟他进行一些捣乱,他可以完成得非常好。
智能涌现:千寻的Spirit v1的VLA模型,是基于您原来的那两项研究(ViLa和CoPa)衍生出来的吗?
高阳:不仅是那两项,是很多研究演化出来的,包括one two VLA,都是在千寻的模型里面做了一些工程化。
智能涌现:你们的one two VLA,跟一般的VLA,不同点是什么?
高阳:如果你跟他说稍微复杂一点的事,比如把手机放抽屉里,可能需要三个步骤——手机拿起来、打开抽屉放进去、再关上。一般的VLA做不了,one two VLA就可以自己去决策,什么时候把任务分解成更小的任务,然后去完成,但是如果你跟它说一个很简单的任务,它就不会继续去分解。
智能涌现:您之前有一个判断,认为四年之后会到Robot GPT3.5的阶段。这个阶段,它有什么样的特点?
高阳:Robot GPT3.5这个阶段,基本上你跟他说任何的事情,他有七八成都能给你完成,比如说进家庭,去门外给我拿瓶水。但他可能不是100%的时候都 work,可能只有70%。
智能涌现:现在行业针对VLA路线,也做出了很多的反思,您认为它可修订的的部分还有哪些?
高阳:我同意陈建宇(星动纪元创始人)之前说的,VLA中的“L”的部分的确现在太多了,因为这个模型其实不需要理解那么复杂的语言。VLA在具体的技术上确实还有很多可以提升的空间。
智能涌现:那具体怎么提升?
高阳:落到实处的话,其实有很多方面。在数据层面,比如如何更好利用互联网上的人类视频数据。因为现在机器人已经广泛利用的是互联网图文数据,但是千寻智能已经在利用互联网人类视频的数据,因为人类视频直观上和机器人做的任务是相关的。
其次,用遥操作数据如何对VLA进行持续有效的监督微调,如何让VLA在物理世界进行强化学习?因为监督微调是人类给他采集数据,强化学习是机器人自己进行的。
其次,在架构层面上,就像陈老师提到的,如何把L减得更少,还有,动作的tokenizer怎么设计得更好,这也是可以不断去探索和改进的。
智能涌现:快慢系统也算是我们独创的技术点吗?这个是什么时候完成的?
高阳:对,这个大概4个月前。
智能涌现:快慢系统做出来之后,比如动作上,它会有哪些比较大的提升?
高阳:你看有一些机器人做事情的时候,一卡,一卡,就是因为模型没有快慢系统。
像我们那个模型,我们叠衣服有一步是甩一下,这个动作要很快,如果不快,这个衣服根本甩不起来,你一停的话它就没有那个劲。
智能涌现:今天大家还在讨论世界模型,在千寻智能的研发版图里,有考虑到这个吗?
高阳:我觉得世界模型的成本,的确是比较高的。当下具身智能对于世界模型的训练没有那么迫切,但我觉得最后它一定是需要的,它是RL(强化学习)里不可或缺的一环。我们现阶段对于世界模型有一些小规模的训练和使用,但没有特别大规模。
智能涌现:分层的路径,您觉得可行吗?
高阳:我觉得分层最后是要被淘汰的。相当于,你用人类的智慧,把这个任务分解到更小。分层的方式,可能在一些任务上短期的效果还不错,但长期来讲一定是不scalable的,因为每做一个新的任务,都要手工去做一些事情。但是如果是端到端的话,就相当于你只要给模型补充数据就可以了。
智能涌现:在您的视野里,机器人领域还有哪些非共识缺口?
高阳:我的脑子里面有很多我自己闭环的东西,但是比如访问器的重要性、机器人第一波落地场景还有很多非共识。包括VLA算法也是正在一个高速发展的过程,但是基本框架已经定下来,算法的一些细节还在快速的发展。
智能涌现:您怎么看现在一些机器人公司建数采工厂的现象?会不会存在一个问题是,这家采的数据不一定能用到另外一家的不同硬件上?
高阳:我觉得大规模的数采工厂,在现在这个阶段是没有太大价值的,主要的原因是因为,大家的机器人形态还在不断变化,机器人形态变了,之前的数据就没办法100%迁移,它会打比较大的折扣。
另一方面,按我们自己这个算法来讲,你其实不需要那么大规模的数采工厂,我觉得最重要的事情是把预训练做好,其次才是数采。我觉得现在可能有一点点本末倒置。
智能涌现:我感觉好像也有一些厂商把这种当做商业模式?
高阳:我觉得它短期的确是可以有一定的商业收入。美国很多做人工智能的公司,他们是人力太贵,没有办法建数采工厂,所以他们会买一些数据。但是长期来讲,我觉得这个模式我觉得很难奏效,因为跨本体的难题还没解决。
智能涌现:但是他们买的这些数据,用在自己不适配的本体上,这些数据还有价值吗?
高阳:有价值,但是会打个折扣。
智能涌现:感觉现在机器人的demo有些同质化,为什么都是比如叠衣服、开电器门的场景?
高阳:首先,叠衣服是一个大家公认的最难的任务,因为衣服的形状千变万化,你很难去给它预编程,其实从Demo里你就能看出来大家模型能力的区别,所以大家比较喜欢做这个。
然后,开冰箱、洗衣机门,大家在日常生活里会有这种任务,就可以让大家imagine future。
智能涌现:你们互联网的数据大概会占多少?不同的数据,各自的作用是什么?
高阳:按量算的话,95%以上。互联网数据是非常广泛的场景,它起到预训练的作用,主要的意义就是提供数据多样性,学术上来讲就是希望模型泛化。泛化的本质原因就是,机器人见过的数据足够多样。
做遥操的话,相当于把泛化性和物理世界的精确操作连接起来。因为机器人只看别人做,自己没做过,就很难去做任何事情,摇操作是提供精确性。
智能涌现:泛化怎么体现呢?
高阳:比如说机器人拿了我的手机,我的是折叠机,但原来训练的是用 iPhone,它可以不用去采集折叠机的数据,就能够去识别它的形态、重量。
智能涌现:这种机器人领域普遍的泛化性表现如何?
高阳:还是比较初级的阶段。但是我们发现用了互联网数据之后,机器人的泛化性提升率还是非常大的,比如你换了一个物体,能有60%-80%的提升。最后预训练和摇操作数据混在一起,两者会互相帮助。
智能涌现:“伯克利四子”,你们四位研究方向和背景都很类似,那具体在研究思路上有哪些差异点?
高阳:陈建宇老师是MPC,他刚回国的时候做的是safety RL,就是控制论,他后来开始做人形机器人,关于行走、跑步。
我自己更多是偏操作类型的,用机器人的手进行干活什么的,是模仿微调和强化微调这个体系。
许华哲老师他主要做的更多是3D policy,就是比如通过点云,去做一些操作和识别,比如它的DP3,就是通过3D相机拍摄场景去实现操作。
智能涌现:你们私下会比对,谁的方向会更接近终局吗?
高阳:大家都是自由的去选择研究的方向,每个人的想法肯定还是有一些区别。学术上,我觉得很难去说服彼此。
智能涌现:那你们私下会去交流管理这件事情吗?
高阳:大家刚成为教授或者刚刚创业的时候,都会面临管理上的学习过程,这些我们交流的很多。
智能涌现:印象深刻的一次交流,你们四个得出了什么管理上的结论?
高阳:我记得有一次我跟许华哲讨论,他们是怎么招人的,我们是怎么招人的,彼此吐槽觉得招到特别好的人很不容易。以及我们也会讨论怎么面试别人。
智能涌现:Deepseek招人的逻辑是,团队里会有大量年轻的角色,你们也是类似的逻辑吗?
高阳:LM 和 VLM,和 Robotics 还是不太一样,但是基本的画像可能都是比较年轻的、比较聪明的,或许不见得有那么多的工作经验。其实我们需要的人并不是很多,但我们需要比较强的人。
智能涌现:强,怎么理解?
高阳:比较典型的画像是,比较好的学校的硕士或者博士毕业。他可能在Robotics领域发表过几篇论文,但并没有在公司里工作过,但是已经有过 research的经验。
智能涌现:为什么不需要有很强的工作经验?是因为你自己曾经在公司工作过的体验不太好吗?
高阳:并不是,只是因为机器人的技术变化太快了。对于算法岗,如果是公司里工作三五年,那么他可能是更久之前读的书,那个时候的技术和现在肯定完全不一样,他所受的教育和现在我们需要的东西可能就不是特别匹配了。我们需要年轻人,是因为他在当下接触到的技术就是最前沿的。
智能涌现:从你们四位的背景上来说,都是从原来自动驾驶版图迁移过来的。从大的逻辑上来看,自动驾驶和机器人领域,重叠的部分、以及后期需要你做增量的部分,分别是什么?
高阳:重叠的部分是,这两个问题的本质是相似的,都是说我看到了一个场景,要做出一个动作,然后这个动作要么就是,机器人往前走了或者抓了东西,或者就是自动驾驶车往前走了或者刹车。
但这两个领域也有很多不一样的点,比如,自动驾驶的本体是ready的,不需要造,有二三十家车企能把汽车造得很好。但是人形机器人本体仍然是处在高速发展的阶段。
还有,自动驾驶的安全性要求极高,但是人形机器人相对而言,某些场景的安全性要求没有那么高,它的场景错误容忍度会更高很多。
end
end