热门资讯> 正文
2025-06-20 13:52
文|王雅迪
ID | BMR2004
6月17日,在百度AI Day开放日上,百度官宣打造业界首个超头主播“罗永浩数字人”,并发布了高说服力数字人的四项技术突破。6月16日,“罗永浩数字人”直播首秀吸引了超1300万人次观看,商品交易总额(GMV)突破5500万元,其中部分核心品类带货量反超真人直播。
今年4月,百度率先发布了高说服力数字人,把AI数字人带入了3.0阶段,成为了一个像真人一样的、形神音容高度协调、会思考决策、能协作完成特定任务的超级智能体,此次百度打造的“罗永浩数字人”就是典型代表。
百度副总裁、电商总经理平晓黎坦言,之所以在这个时间点尝试和交个朋友合作老罗的数字人,是高说服力数字人发布带来的底气。得益于文心大模型4.5的发布、人像视觉大模型、语音大模型的精进,以及多智能体协同架构的上线,高说服力数字人不仅语言脚本质量实现了质的提升,可以使数字人出口成章,脚本到剧本模型的升级能够实现表情、动作、语言的协调一致,同时,数字人还拥有能够自主思考决策的AI大脑,不仅可以与直播用户实时互动,还可以调度多智能体完成特定任务。
和老罗合作要跨越哪些难点?
据悉,6月16日,“罗永浩数字人”刚开播26分钟,带货金额就超过了前一场真人直播1小时的GMV,最终这场数字人直播GMV超过了5500万元,带货效果媲美5月23日真人场直播的5000万元,并且直播间用户的平均观播时长超过了真人场直播。
相对不错的成绩背后,百度正在尝试突破两大难点问题。
平晓黎指出,“老罗的数字人是当下电商数字人领域的无人区,还没有人挑战过生成超头主播的数字人直播。首先,从老罗直播看,他和老搭档朱萧木之间的你来我往,配合非常好,眉眼传情,默契度满分,而我们见过的都是单数字人,双人数字人还能互动是第一个难点;个人风格是超头主播的灵魂,让数字人还原老罗风格且有梗有趣,是第二个难点。”
罗永浩作为超头IP,有着极强的用户号召力,用户不仅会询问价格和商品详情,还会在直播间“抖包袱”调侃他。面对这些前所未有的复杂任务场景,数字人技术面临着很高的挑战。值得一提的是,百度此次推出的数字人选择了“双人”模式。
平晓黎表示,之所以选择“双人”,就是要做市面上还没有的内容形式。其次,头部主播
双人直播是其特点,尤其老罗经常是双人直播,他有搭档。从双人直播的角度来看,在真正的直播架构里,除了主播、副播以外,整个直播间还有很多小的智能体,每个智能体都是一个任务。
她举例说明,助播智能体是氛围组,在适时的时候可以鼓个掌,所以可以理解为大的主播和副播也是两个数字人的智能体。真正一场真人直播虽然看到的是两个人,实际背后看不到的还有20个人,而在数字人直播间通过多智能体架构,没有人数限制,且可以实现24小时不停播。
此次“罗永浩数字人”直播时长超过了6个小时。对此,平晓黎解释道,“这是因为老罗是头部主播,任何一次曝光对他来讲都是一种‘使用’,他需要有一定的稀缺性,不能一天24小时、一年365天都直播,稀缺性就不够了。但技术上可以实现更长的时间。”
多模协同下的“四大”突破
在高说服力数字人的基础之上,此次百度电商慧播星再一次迭代,围绕慧播星首席体验官罗永浩实现了体验、内容、视觉、效果的四大突破。
一是体验突破。通过复刻罗永浩与助播朱萧木的丝滑配合,上线了业界首个双数字人互动直播间,给营销转化和C端体验,打开了新的想象空间;
二是内容新突破。得益于文心4.5 Turbo的升级,通过深度训练,使数字人做到了“懂创作”,带货时塑品专业度更高,数字人可以“有个性”,甚至能“玩梗”,为数字人注入了灵魂;
三是视觉新突破。此次“罗永浩数字人”直播,是业内首个多模态高度融合的数字人应用场景,实现了在直播实时环境下的超长演绎,做到了动作、表情、语调等贴合话术,且稳定可控;
四是效果新突破。AI大脑基于直播间信号灵活控场,数字人可以主动邀评、高频互动,极大提升了用户沉浸感。通过多智能体实时调度,在数字人直播间实现了和真人直播间一样的互动玩法,如抽奖、发福袋等。
这些突破的背后,离不开百度多模协同的数字人技术。该技术基于文心4.5 Turbo,实现了融合多模规划与深度思考的剧本生成。通过剧本驱动数字人多模协同,实现了动态决策的实时交互,使数字人的“神、形、音、容、话”达到高度统一。最终呈现出一个具备高表现力、内容吸引人,且“人—物—场”可自由交互的超拟真数字人。
百度集团副总裁吴甜介绍道,剧本生成技术包含台词生成、多模驱动和动态交互三部分。以“罗永浩数字人”剧本为例,基于文心大模型4.5 Turbo生成的剧本,展现了主播的个人特色,具备典型的罗氏幽默风格,并能够实现双人主播的内容协同,动态实现丰富的实时互动。通过文本自控的语音合成大模型,实现高复原的语音合成能力,再结合直播台词及发音人特征,合成风格恰当、自然流畅的声音。
为解决“罗永浩数字人”直播双人声音配合的难点,百度采用对话上下文编码器,将对话历史输入和当前对话进行语音合成的统一推理计算,最终实现流畅、自然的双人对话效果。在数字人形象生成以及驱动方面,通过结合多模态视频理解、跨模态信号生成、视频生成等技术,克服了高可控交互,高精度、长时间一致性保持等难点,实现了高一致性超拟真“罗永浩数字人”长视频生成。
“AI+直播”成本优于真人直播?
据罗永浩所属机构交个朋友代表、公司副总裁吴加录表示,百度的AI能力与交个朋友的直播运营经验和供应链资源实现了技术与场景的完美结合,这类“技术+IP”的协同模式也将为行业探索智能化转型提供实践样本。
这个样本的直播效果是否达到了成本上可接受的范围、能否大规模实现复制,针对外界比较关心的这一问题,平晓黎给出了解答。
她透露,老罗直播间的成本是可接受的,但预期整个规模化需要大概三个月到半年的时间。这个规划更多是指不需要太多百度辅助的情况下,由商家、达人独立操作,虽然还需要一定时间,但成本问题不大,单个数字人制作成本已经控制在千元左右。目前,百度数字人已经运转一年多,其商业模式已经能够跑通,因为比真人直播便宜很多。
同时,平晓黎还强调,这要看跟谁比,老罗直播间制作成本看似花费挺多时间,是因为其真人直播的筹备也需要花很长时间,老罗每场直播的成本都非常高。相比之下,如果一个普通的商家开一场直播,最低的一个月主播费也可以达到上万元。然而,百度数字人可以降到千元,成本低很多。”
以新会陈皮的源头产地商家广芸堂为例,过去做真人直播时,一直受主播差旅、时间调配这些高额成本所困。数字人助其突破了这一限制,借助技术优势,一边直观呈现原料生长的真实环境,一边通过灵活切镜,把陈皮的色泽纹理、触感细节等细微品质,全方位清晰展示,将“产地直采、品质可控”的核心优势,从抽象概念转化为可视化、可感知的体验,直接助推GMV实现160%的增长 。
梦蝶和繁星计划打造主播数字人
百度电商商业业务部负责人、数字人创新业务部负责人吴晨霞表示,慧播星作为业界首家实现“AI大脑”多智能体调度的产品,实现了灵活场控,并支持一个数字人直播间上线多种玩法,有效提升了用户转化。“罗永浩数字人”首秀大捷,标志着慧播星产品力迈向全新阶段。
为了推动更多主播数字人的打造,百度电商还推出两大计划:一是“梦蝶计划”将通过流量扶持、超头主播数字人打造以及预算扶持,实现百度优选超头主播的数量倍增;二是“繁星计划”则将再次追加10万个慧播星数字人,投入1亿元数字人消费补贴、千万级别的运营扶持,帮助更多的普通人、中小企业开启数字人直播。
值得一提的是,此次“618”期间罗永浩在百度开播,揭开了其与交个朋友战略合作的序幕。据悉,罗永浩正式出任慧播星首席体验官,以超头部主播能力引领慧播星发展。百度将一起在“AI+直播”领域探索,打造AI实践、共建行业技术标准、助力达播出海等,同时,罗永浩以“真人+数字人”的形式在百度电商常态化开播。
平晓黎对数字人直播抱有很大的期待。在她看来,只要直播商家有降本的需求,基本上都可以采用真人与数字人混播方式。如果数字人可以提供比真人更好的效果,他就一定会用数字人。现阶段商家面对一些平台的限制,因此没有办法完全应用数字人。新物种的出现还需要一个渐进的过程,技术如何与生态位的融合达到平衡,并且让C端用户也逐步地接受都需要时间,但其发展前景是值得期待的。