简体
  • 简体中文
  • 繁体中文

热门资讯> 正文

计算机行业点评:FIGURE01:OPENAI大模型赋能人形机器人

2024-03-15 09:31

人形机器人Figure 01 发布演示,智能程度惊艳。2024 年3 月13 日,人形机器人创业公司Figure 在X 平台发布了自己第一个OpenAI 大模型加持的机器人演示视频。借助OpenAI,Figure 01 现在可以与人类进行完整的对话,OpenAI 模型提供高层级的视觉和语言智能,Figure 的神经网络提供快速、低层级、灵巧的机器人动作。Figure 01 能理解周围环境,流畅地与人类交谈,理解人类的需求并完成具体行动,包括给人类递苹果、将黑色塑料袋收拾进框子里、将杯子和盘子归置好放在沥水架上。此前在2 月29 日,Figure刚刚宣布以26 亿美元的估值获得了包括OpenAI、英伟达、微软在内的新一轮6.75 亿美元融资,同时表示OpenAI 和Figure 签署了一项合作协议开发下一代AI 模型。

OpenAI 能力加持,预训练模型决策是重要突破。Figure 01 现在具备的能力包括:1)描述其周围环境。2)在做决定时使用常识推理。3)将模棱两可的高级请求转换为一些符合上下文的行为,4)用通俗的语言描述为什么它执行了特定的操作。在实现上,Figure 01 把机器人摄像头捕获的图像和机载麦克风捕捉到的语音转录文本输入到一个由OpenAI 训练的大型多模态模型中,该模型能够理解图像和文本,处理整个对话的历史,包括过去的图像,以生成语言回应,同一个模型负责决定在机器人上运行哪种学习到的、闭环的行为来完成给定的命令。一个理解对话历史的大型预训练模型为Figure 01 提供了强大的短期记忆,通过预训练模型Figure 01 能快速形成并执行计划。关于低层次双手操作技能,所有行为均由基于transformer 的视觉-运动变换策略驱动,将像素直接映射到动作。预训练模型对图像和文本进行常识推理,以制定高层次计划。学习到的视觉运动策略执行计划,执行难以手动指定的快速、反应性的行为,同时,全身控制器确保安全、稳定的动态。我们认为Figure 01 使用多模态预训练模型做高层次决策,再映射到低层次动作的方式类似于大脑与小脑的分工,是演示中机器人展示良好智能水平的重要因素,也是AI 与机器人结合的技术路径上的重要突破。

人形机器人应用空间广阔,产业进展持续加速。根据Figure 官网对未来的展望,人形机器人将彻底改变各种行业,从企业劳动角色,到协助家庭中的个人,到照顾老人,以及在其他星球上建立新世界。Figure 的首批应用将是制造业、航运和物流、仓储和零售等劳动力短缺最严重的行业。除了Figure,OpenAI 在2023 年3 月还投资了挪威人形机器人公司1X Technologies,目前该公司的轮式机器人EVE 已在进行物流和零售工作,双足人形机器人NEO正在开发中。2024 年3 月18 日即将到来的英伟达GTC 大会上,AgilityRobotics、波士顿动力、迪士尼和Google DeepMind 等公司将在现场展出25 款机器人。我们认为,Figure 与OpenAI 合作后的进展速度体现了大模型赋能人形机器人的巨大潜力,基于业界目前进展,人形机器人产业落地趋势明朗,有望为产业链相关公司打开增长空间。

建议关注:三花智控拓普集团鸣志电器绿的谐波

风险提示:机器人技术迭代不及预期风险;经济下行超预期风险;行业竞争加剧风险。

风险及免责提示:以上内容仅代表作者的个人立场和观点,不代表华盛的任何立场,华盛亦无法证实上述内容的真实性、准确性和原创性。投资者在做出任何投资决定前,应结合自身情况,考虑投资产品的风险。必要时,请咨询专业投资顾问的意见。华盛不提供任何投资建议,对此亦不做任何承诺和保证。