热门资讯> 正文
2025-07-22 19:19
(来源:百度)
今天,我“飞飞”不做蜀汉名将了,来绣花
除了“飞飞绣花”,也许你还想看这对“古风cp”坐飞机?
这些视频均来自我们的新伙伴——百度蒸汽机(MuseSteamer)。7月2日,百度商业自研视频生成模型蒸汽机初次亮相,只要「一张图+一句话」,即可输出高品质有声视频片段。
今天,蒸汽机的最新进展来了!此次更新再次突破技术边界,打造音视一体化的视频生成技术,还能生成多人对话场景,实现多角色、场景、人声和环境音的丝滑协同。
来看看蒸汽机迎来哪些新亮点
01
多人对话场景拿下!
活人感满满、中文说得超溜
不仅能生成单人有声视频,蒸汽机还具备强大的多人对话有声视频生成能力。蒸汽机对人物的唇形、面部表情、动作等细节进行全局生成,一颦一笑、一嗔一怒都能被它完美展现。它还能保障人物语言行为、语音节奏、画面动态随着环境音效变化,全面提升了视频的沉浸感与真实感。
同时,蒸汽机是吃“中文语料”长大的!它基于海量中文语料深度训练,中文语音细节还原度超98%!即使你说方言,它也能精准拟合。还在担心AI生成的视频总有一股“翻译腔”、“人机感”吗?来看看蒸汽机的表现
02
超智能、超有想象力!
和繁琐后期说拜拜
蒸汽机搭载LMMP技术(首创Latent Multi Modal Planner),这项技术能让模型自主规划多角色身份、台词情感以及互动逻辑,保障更协调、更一致的画面生成,为你呈现更真实、更具表现力的多人对话互动,让多角色互动场景真实如电影实拍。
同时,蒸汽机可以实现全流程一体化生成,告别后期配音。只需一张图+一句提示词,即可输出: 高清画面 逼真环境音 自然人物语音。输出音画同步、情境完整的沉浸式内容,大幅提升创作效率与成片质量。
例如,从一张静态的照片,到一场跨越时空的沉浸式战争体验——你需要的,只是一张触发想象力的图片,一句点燃灵感的提示词,蒸汽机就能将它们编织成恢弘场景。
它还能生成自带bgm的氛围感视频,一句精准的prompt就是开拍的号角,情绪张力扑面而来。
03
“赛博神笔马良”
让角色打破次元壁和你互动
AI做视频,最怕嘴在动,声音却对不上。百度蒸汽机突破音视对齐生成技术,做到毫秒级同步,人物不再是“人机味”十足的复读机,而是会呼吸、会互动的鲜活形象。
从经典的影视角色,到笑到裂开的二创神作,给严肃角色注入沙雕灵魂,给反派安排社畜日常,让英雄跌落神坛… 你掌管的,是整个影视宇宙的欢乐OOC(Out Of Character)特权~
做短剧、讲知识、拍段子……从此,这位“赛博神笔马良”帮你制作大片!
例如,在激烈的厮杀现场,兵马俑一样乖乖接外卖电话:
直播间各色背景墙统统out,不如主播现身战场带来解说:
不仅是真人形象,动物、动画形象、甚至一个物体,也能在蒸汽机的强大能力支持下焕发生机。