热门资讯> 正文
2025-11-23 21:23
《科创板日报》11月23日讯(记者 李明明)“若手握100亿元推进具身智能发展,该如何分配?”近日,2025智源具身Open Day圆桌论坛上,主持人抛出了这样一个开放性问题。
这场圆桌上,来自8家国内具身智能领域顶流企业机构的嘉宾齐聚一堂,围绕行业发展核心议题展开深度探讨。参与对话的嘉宾包括智源研究院院长王仲远、智元机器人合伙人兼首席科学家罗剑岚、北京大学助理教授及银河通用创始人王鹤、清华大学交叉信息学院助理教授及星海图联合创始人赵行、加速进化创始人兼CEO程昊、自变量创始人兼CEO王潜、招商局集团AI首席科学家张家兴、中国科学院大学教授赵冬斌。
对100亿元如何分配,嘉宾们给出了多元答案。王潜明确优先级,首要吸纳顶尖人才,其次投入算力与数据领域;王鹤则强调,相比资金,更需以人与机器人共生的事业愿景吸引人才;程昊直言100亿额度不足,若仅有这笔资金,将选择联合多方力量,投资科研机构以吸引全球人才,专注长期技术突破;王仲远认同这一观点,并补充称100亿(约10亿多美元)仅相当于GPT-3关键研究周期的投入规模;罗剑岚计划打造全球最大的自我进化、自我闭环数据系统,同时指出目前尚无个人或机构率先投入百亿推进此事;赵行则聚焦构建最大“data engine(数据引擎)”,目标实现物理世界信息的全面数字化。
这场巅峰对话清晰展现了具身智能领域充满不确定性却孕育无限可能的发展现状。在核心议题上,行业共识逐步凝聚:关于世界模型,嘉宾们认为其并非简单的视频生成工具,而是具备状态预测能力的核心组件,训练需融合机器人自身数据与真实环境交互经验;关于数据困境,真实数据的核心地位得到普遍认可,仿真数据在特定阶段发挥重要作用,构建“真实采集+仿真补充+自主迭代”的数据生态成为破解瓶颈的主流思路。
世界模型:具身智能的必要支撑还是辅助选项?
今年以来,世界模型概念在人工智能领域持续升温,其与具身智能的结合是否是实现后者的关键,成为全场热议的首个焦点。对此,嘉宾们虽立场略有差异,但普遍认可世界模型在具身智能发展中的重要意义,核心分歧集中在对世界模型的定义与应用边界的理解。
王鹤持中立态度,他指出世界模型的概念已随技术发展逐渐模糊。在强化学习的原始定义中,它是基于当前状态和动作预测下一步状态变化的工具,但经过Sora等视频生成模型的演变,这一概念的内涵不断扩展。
他强调,用人类视频数据训练机器人模仿人类行为的思路存在先天局限——机器人的本体结构(如轮式、双臂)与人类身体差异显著,即便人形机器人,在灵巧度、活动范围等方面也难以媲美真人,因此这类数据对具身智能的实质帮助有限。但从长远来看,具身机器人与人类一样,需要具备未来状态的预测能力和反向规划能力,世界模型作为预测机制不可或缺,只是其训练数据必须包含更多机器人自身的数据,才能形成真正适配机器人的世界模型。
王仲远则明确认同世界模型是具身智能的关键。他表示,当前世界模型的定义尚未形成共识,若仅将其等同于视频生成,那它或许只是具身智能的辅助工具;但在他看来,世界模型的核心是“下一个状态预测”,即基于先前的时空状态预判后续发展。他举例说明,回答问题时需结合前文语境决定回应内容与动作,这正是世界模型的典型应用——基于环境与上下文给出下一步行动响应,这才是世界模型赋能具身智能的核心价值。
程昊进一步补充,团队关注世界模型的核心原因在于其“预测能力”,既包括对自身动作的预判,也涵盖对外部环境变化的预测。不过他也坦言,构建具备这种能力的世界模型挑战巨大、路径漫长,因此团队采取分阶段推进策略,先通过分层方法构建智能体,在拿快递、搬箱子等简单场景落地,积累数据后再向做饭等复杂任务突破。
架构之争:具身智能会收敛于统一架构吗?
Transformer架构催生了ChatGPT等现象级应用,彻底改变了自然语言处理领域的发展格局。那么,具身智能未来是否会像自然语言处理一样,收敛到某一种统一架构之下,形成属于自己的“Transformer”?这一问题引发了嘉宾们的激烈探讨,现场举牌结果显示,除赵冬斌持观望态度外,其余嘉宾均认为具身智能最终会收敛到统一架构。
赵冬斌的观望源于当前具身模型训练方法的多样性。他介绍,目前业界不仅在探索模型架构本身,还通过预训练、后训练、思维链推理等多种方式提升模型性能,在制作咖啡、折叠衣物等多个任务中展现出通用能力。他认为,未来既可能出现收敛的单一模型,也可能继续保持模型多样化的发展路径,两种可能性并存。
对于最有可能成为具身智能“Transformer”的技术路径,张家兴提出了独特见解。他认为,当前主流的VLA(Vision-Language-Action)结构不符合人类认知的本质逻辑——人类智能的演进是先有动作能力,再发展出视觉,最后诞生语言,而VLA在视觉和动作之间插入语言模块,割裂了两者的直接联系。
张家兴以开车为例,人类可同时进行驾驶动作与语言交流,证明视觉与动作之间存在直接通路,无需语言全程参与。因此,他主张构建完全面向具身智能的独立系统架构,而非从以语言模型为核心的现有体系中脱胎。
张家兴坦言,理想的“具身智能Transformer”目前尚未出现,业界仍在期待大模型领域的根本性创新。硅谷顶尖团队正在探索的新型多模态大模型架构,正逐渐弱化语言的核心地位,这一方向与具身智能的发展需求高度契合。他预判,大模型领域将迎来从“language first”到“vision first”或“vision-action first”的范式转换,这将为具身智能统一架构的形成奠定基础。
赵行对此深表认同,他提出具身智能需要一个与大语言模型平行的基础模型——“大型行动模型(Large Action Model)”。该模型应遵循生物进化规律,以视觉为基础(视觉是最通用的感知信息来源),再逐步融入语言能力,形成“行动优先、视觉随后、语言最后”的构建路径。他强调,这类模型与大语言模型的关键区别在于其闭环属性:大语言模型是开环系统,用户提问后模型给出答案即完成交互;而具身智能需要在动作执行后实时获取环境反馈,调整后续行为,形成持续交互的闭环系统。
罗剑岚则从系统视角出发,认为智能问题难以通过单一模型解决,更可能依赖包含多个核心组件的完整系统。除VLA外,该系统还需整合世界模型(负责反思、预测与隐空间推演)与强化学习,形成数据自由流动的闭环系统,推动智能持续提升。
王仲远表示,智源研究院坚信终极状态下会出现统一架构的模型,这也是其布局多模态世界模型的重要原因。但他同时指出,这类模型对数据量的需求极大,可能需要等到更多机器人落地、积累足够数据、形成“具身智能的互联网”后才能实现。目前,团队正探索多种具有潜力的大一统架构,长期来看,统一架构是具身智能必须突破的关键问题。
王鹤从架构与数据的关系切入,认为具身智能的感知信号(视觉、听觉、触觉等)理论上可通过token化输入Transformer,当前的主要瓶颈在于动作生成与响应不够自然。若能解决输出层面的问题,从架构上形成统一范式是可行的。但相比之下,数据问题及对应的学习范式才是更长期、更根本的挑战——目前全球运行的前沿人形机器人数量极少,难以支撑“行动优先”架构与模型的探索,短期内需依靠仿真模拟与合成数据推进,长期则需实现人形机器人口的高速增长。
王潜则认为“Transformer”的说法存在误导性,其本质是一种架构组件,而具身智能更需要的是一整套完整的方法论与模型体系。就像建造大楼,Transformer可能只是砖块或钢筋,可被其他材料替代,更重要的是整体结构设计。
他从语言模型的发展中总结出两点经验:一是数据质量优先于数量,物理世界的真实数据能带来数据效率的数量级提升;二是通用模型的价值在于捕捉任务间的共同结构与本质规律。他还大胆预判,未来5-10年内,主导的多模态模型可能由具身智能推动发展,甚至取代当前的多模态范式。
赵冬斌进一步强调,未来大模型未必依赖海量数据,可能像人类一样通过少量样本实现高效学习。具身智能的输入模态远比互联网大模型丰富,力矩、触觉等物理交互信号的处理会影响模型架构设计,而输出层面也存在多种实现路径。目前业界仍处于百花齐放的状态,简单场景下甚至无需复杂架构,一个状态空间模型即可满足需求。
数据攻坚:破解具身智能发展的核心瓶颈
数据是人工智能的“燃料”,对于具身智能而言,数据的重要性尤为突出,但同时也面临着采集难度大、质量参差不齐、规模不足等诸多挑战。如何破解这一“既重要又难搞”的困境,成为嘉宾们分享的重点。
张家兴明确表示,团队坚信真实物理世界数据的核心价值,其数据策略的核心是构建“质量最高、成本最低的数据金字塔”。在数字金字塔的构建过程中,团队主张以人自身作为本体采集数据,这种方式成本最低,也最容易实现规模效应,采集的数据将主要用于人工智能模型训练。
赵行的策略同样以真实数据为基础,具体从三个层面推进:首先保证数据真实性,以真实机器人素材为采集起点;其次注重数据多样性,突破自有工厂的局限,深入各类真实场景采集数据;最后通过优化方法(如从依赖机器人转变为无机器人方案)降低采集成本,扩大数据规模,实现数量突破。
罗剑岚强调团队坚持采集真实数据并高度重视数据质量,尤其注重两点:一是数据采集场景的真实性,不局限于数据工厂,而是深入真实应用场景;二是构建机器人自主产生数据的生态——将大量机器人部署到真实场景中,通过机器人与环境的交互产生多样化数据,再利用这些数据优化模型、迭代机器人能力,进而部署更多机器人,形成正向反馈循环。
王仲远的思路则是“视频数据打底+真机数据优化”:先通过海量视频数据训练基座模型,因为视频数据易于海量获取,且能较好地模拟真实世界;再利用真机采集的数据进行半自动处理,结合强化学习的反馈机制,持续提升模型能力。他形象地将这一逻辑比作小朋友通过刷手机视频认识世界,再通过真实交互提升技能。
王鹤是现场唯一强调仿真数据价值的嘉宾,他表示仿真并非要替代真实数据,而是因为很多底层控制能力(如人形机器人的行走、跳舞、复杂身体控制)需要通过大量强化学习获得,这在真实世界中实施难度极大。目前所有人形机器人的复杂身体控制都是通过仿真器习得的,真实数据的作用主要是提取人类行为形态(如舞蹈动作),以及在真实世界中进行少量微调。
程昊介绍,团队当前大量使用仿真数据的原因是其获取速度快,但使用仿真数据的最终目标是为了让机器人在落地后能获取更多真实数据,进而提升整体能力。他认为数据应用是一个螺旋上升的过程:机器人落地后获得真实数据,发现难以解决的“corner case”,而真实世界又无法采集到足够的对应数据,就需要回头借助仿真数据补充训练。
王潜则采取“全数据利用+差异化侧重”的策略,各类数据都有其应用场景:互联网数据主要用于构建知识链、学习常识;仿真数据用于智能体的决策与推理,而非接触式抓取等依赖物理交互的任务;他坦言,把任何一种数据用好都面临大量核心工程问题,这也是团队日常工作的重点,而数据的多多益善能让模型从多维度学习知识。