熱門資訊> 正文
2025-11-07 12:05
夢瑤 發自 凹非寺
量子位 | 公眾號 QbitAI
還記得今年6月羅永浩那場堪比春晚帶貨專場的直播嗎?評論區刷屏、訂單秒飄,GMV直接干到了5500萬+:
當時的老羅,前一秒還在念叨「別幫我省錢」,下一秒那副「精明老練」的商人面孔就藏不住了。
推眼鏡、拍桌子、掏清單一氣呵成,操作之嫻熟、語氣之佛系、節奏之精準,一整個「老羅本羅」!
狀態太好了,甚至好到讓人根本想不到:這場直播從頭到尾,羅永浩其實一次都沒出鏡……
你看到的「老羅」,其實是個數字人。(對,連眼鏡反光都合成得像模像樣)
蒼天啊,真假難辨真假難辨啊!
這出「安能辨我是AI」的魔幻直播大戲,背后的操盤手,正是百度。
他們用一套叫劇本驅動多模協同的高擬真數字人技術,讓數字人不但能説話,還能演戲、接梗、搶話筒,甚至真·金·白·銀地把貨賣出去。
在正在舉行中的2025年世界互聯網大會烏鎮峰會上,這項技術又一次拿下了領先科技獎,這是百度在烏鎮的三連冠,也是唯一連續三年獲獎的AI公司。
一個小小數字人,能説、會演、還能把錢賺得啪啪響,這個技術……究竟有啥魔力?
這屆數字人開始凹「編劇+演員+嘴替」人設了
大家有沒有這種感覺,這兩年數字人是真的火,不是因為產品多,而是給咱推送的太多了。
十條短視頻直播可能就有一條是數字人copy的,不是在吆喝賣東西,就是合成面孔在講新聞,「人設」各不相同,但「人味」都差點意思。
但為啥很多時候我們一眼就能看出來它不是真人?很簡單,是因為數字人最容易露餡兒的,從來不是臉,而是「人味兒」。
人識別「人」的方法其實特直覺,例如語氣對不對,動作順不順,只要有一點點卡頓、齣戲、不自然,立馬就知道「No!這不是真人!」
而百度劇本驅動多模協同的高擬真數字人技術,就是要從根上解決上面這些問題。
它重點包含劇本驅動的數字人多模協同、融合多模規劃與深度思考的劇本生成、動態決策的實時交互、文本自控的語音合成、高一致性超擬真數字人長視頻生成五項創新技術。
簡單講就是,它不是隻訓練一張臉、一個語音模型,而是讓語言、動作、表情、反應、內容都能協同起來,讓數字人像真人一樣「説」「演」「動」「聽」「想」。
能自己寫劇本的數字人
現在這年頭,能張口説話的數字人不算稀罕事兒了,能自己寫劇本、自己演,還能控節奏、接互動的數字人才是真·有點能耐。
基於文心大模型,百度這套「劇本驅動多模協同」的高擬真數字人技術不是你喂一句它説一句,而是它自己就能cos成一位資深編劇,能一口氣輸出一份可以直接開播的全流程直播劇本:
這份劇本里不僅有「説什麼」,還有「怎麼説、什麼時候説、説的時候怎麼配合動作表情」,説到哪該看哪、什麼情境配什麼語氣、雙人直播時誰該接話、怎麼接,全都提前安排好。
舉個例子,提到「抬頭紋、法令紋、頸紋」的時候,小小數字人會自動調用視覺標籤,告訴系統鏡頭該怎麼精準展示部位。
説「福利來咯」時,就觸發語音標籤,控制情緒語調,讓語氣顯得足夠興奮、但不油膩。
雙人互動時,還能安排「數字人在哪個詞之后無縫接話」,一句不差,直接接梗不卡殼!
像咱開頭提到的羅永浩那場6個多小時的直播,就是系統基於老羅的人設和產品特性,調用知識庫超過1.3萬次,生成的9.7萬字講解內容。
不但能像人一樣及時察覺到直播間熱度及用户的反饋,還能超自然地與用户實時互動:
再仔細看這段視頻還能發現,他能主動邀評、Cue彈幕、拋話題,遇到觀眾刷屏,還能順着話頭加段子,控場氛圍説實話,甚至比一些真人還穩。
背后這套「劇本+指令+場控」一體化系統,撐起的就是數字人的真正靈魂感,能聊能演能控場,妥妥的一位「全棧帶貨人」。
張口就能「戲精」附體?包會的!
數字人到底「裝」得像不像人,開口嘮兩句就能見真章。
在這一塊兒,百度高擬真數字人算是把「人味兒」打磨到位了,不光講話情緒有起伏、語調能帶勁兒,還能根據場景自動切換自己的語言風格,説得像,還説得準:
以至於我們看到老羅那場以假亂真的直播時,第一反應是沒任何毛病,因為那佛系又爆梗的講話勁兒真的跟他本人太像了:
前腳剛喝一口牛奶,后腳立馬張口爆金句:睡前來一杯,半夜上廁所思考一下人生也不錯~
別說觀眾,我要不是知道這是數字人,真以為老羅這段子水平又進化了,當一個數字人能copy到和正主一樣的講話方式時,我只能説是真·修煉得爐火純青了…
(等等,下一步該不會是數字人上《脱口秀大會》了吧???)
老話講得好,臺上一分鍾臺下十年功。
能讓數字人嘴皮子如此之溜,背后的核心技術是百度自研的文本自控語音合成大模型,不僅能把字讀出來,還能輕輕松松把語氣、節奏、情緒一起說出來。
此外,爲了解決羅永浩數字人直播雙人配合的難點,百度用上了上下文編碼器,把整個對話的來龍去脈喂進去統一推理生成。
這才使得數字人能感知整段臺詞的情緒走向,動態調整語調和氣口,讓聲音聽起來像是「剛想完才說出口」的!
聽不到接縫、也感覺不到誰在等誰,説得順,接得住~
一張臉播到底,不累不崩不出戲
現在之所以有越來越多的商家開始用數字人代替真人出鏡,很大一個原因是:是人,就會累。
你想啊,人播個三五小時,脱粧不説,臉上隱約寫着四個大字:生!無!可!戀!
作為觀眾的我們看到那疲憊的面孔都忍不住想説一句:「哥,要不你先歇會兒?」(打工人狠狠共鳴了…)
而且講真的,正常人就算能高精力連着播六七個鍾頭,情緒雖可能還在線,但腦子可能早宕機了…
於是乎,賽博打工數字人就上場了!
百度數字人通過結合多模態視頻理解、跨模態信號生成、長視頻生成的一整套技術鏈,把數字人的在線表現力拉滿了:
沒有疲憊情緒、能在長時間直播中,始終維持統一語氣與人設狀態,不管播多久、講幾輪,調性始終如一,不跑偏、不出戲。
此外,對品牌來説,這種一致性是塑造IP的重要前提。
尤其在長時間直播場景里,效率、狀態、形象,全程在線,對商家來説,這不只是替代,更是一種流程可控、成本更穩的新解法。
這樣一來,旋轉跳躍不停歇真不是句歌詞了,小小數字人還真能幾個小時整下來~
技術落地之后,數字人開始真正「上工了」
是騾子是馬,當然得拉出來溜溜。
如今,百度這套高擬真數字人技術已經從「demo階段」走向了真實生產環境,成爲了真正跑在一線的「打工仔」。
截至目前,靠它「孵化」出來的數字人已經超過10萬個,活躍在電商、教育、法律、政務等幾十個行業。
能賣貨、能講課、能答疑,還不喊累。
更關鍵的是,它不是「只省事不出活」,而是真能幫企業提效:
據官方數據,目前這套技術已經助力商家開播成本降低80%,轉化率提升31%,可謂「多·快·好·省」。
比如在老羅與朱蕭木的雙人帶貨直播中,百度數字人連播6小時,吸引觀眾超1300萬,GMV達到5500萬+,整個這波過程沒有冷場、沒有翻車,「嘴替」穩定輸出,觀眾看完都驚呼:真假傻傻分不清楚了…
知識博主艾彌兒也通過百度數字人接入萬億級知識庫,將用户停留時長提升101%;蒙牛悠瑞的數字人通過全時段服務與動態策略,使轉化率提高了33%。
在山東德州夏津縣,「慧播星」數字人還助力三位老書記直播帶貨,1個月賣出3.3萬斤農產品,賬號訂單量已近萬單,總銷售超15萬元。
更進一步,從行業生態維度看,這套數字人技術也帶來了新的「綠色降本邏輯」:
不拼燈光、不靠體力,全程用算法驅動、一臺設備跑全程,不僅能少碳排、多複用,還能帶動上下游企業協同創新,產業鏈自然更健康。
從城市到鄉村,從書本到助農,數字人正悄悄接住每一個場景的需求。
不知不覺中,這套數字人技術已經變成了百度電商生態里的「默認選項」,撐起了包括圖書、健康、明星直播在內的多個業務的底盤。
相比傳統直播,商家無需投入大量人力物力,不用搭建場地、購置設備、培訓主播,只需部署一套數字人系統,就能實現全天候內容輸出。
而24小時不間斷直播,也讓商品在曝光時長、用户觸達頻次、轉化機會上都實現了顯著增長。
從打工人視角看,這是別人家「永不下播」的同事;從老闆視角看,這是穩定、耐造、可調度的理想員工。
總的來説,從前的數字人,還只是個實驗室demo,現在的數字人,已經在直播間里拉業績、帶節奏、撬增長了。
更關鍵的是,它的表現不只靠「看起來像」,而是拿得出數據、撐得起轉化、跑得動流程:
讓觀眾停留、讓訂單增長,在一個又一個落地場景中完成「交作業」。
百度數字人技術在烏鎮上的獲獎,不只是在表彰技術突破,更是在確認:
一個能上場、能扛活、還能賺得明明白白的數字人,已經成了內容產業的新型基礎設施。
不是替代真人,而是開闢了一種更穩定、更可控的內容生產力路徑。
下一場數字人直播的爆點,沒準就藏在一行劇本的背后,咱就搓搓手期待期待吧。
(聲明:本文僅代表作者觀點,不代表新浪網立場。)