繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

B站下場自研AI配音!純正美音版甄嬛傳流出,再不用看小紅書學英語了(Doge)

2025-07-14 17:08

白交 發自 凹非寺

量子位 | 公眾號 QbitAI

當甄嬛傳、讓子彈飛全都轉英文,會怎樣?

小紅書經常刷到這種視頻,然后英語就這麼絲滑地經過我的腦子。

現在,AI就可以搞定!就像這樣。

不僅符合原版的音色和情感,還能保證脣形同步。

很好, 以后再不需要看小紅書麻煩配音老師來教我英語了(Doge)。

而這次出手的,正好是那個創造諸多魔性視頻的B站。真是好你個B站。

他們發佈的TTS模型IndexTTS2,在社區引發不少的關注。

網友表示:已經迫不及待地想用它來做搞笑視頻了。

IndexTTS2:AI配音無壓力

它最大的亮點,就在於在實現時長控制的同時,還能再現符合Prompt的情感特徵。

它支持兩種生成方式。

一種是明確token數量,以精準控制時長。

比如原音頻是這樣:

要求替換成的文本是隻有當科技為本地社羣創造價值的時候,才真正有意義。

那麼控制它的時長分別為原來的0.75倍、1倍(原速)、1.25倍。效果是這樣的。

另一種是無需手動輸入,自動生成語音,同時保留輸入提示的韻律特徵。

比如生氣的情感。

指定替換文本:你在我們屋里走路的時候,發現了一條遙遠的路,這是不夠奇怪的。

此外還支持音頻和情緒表達獨立控制。

不同的音頻提示可以分別作為音色和情緒表達的參考,也可以用描述性的文本也能用來情緒參考,同時保持音色不變。

比如像「我感覺很沮喪」、「巨巨巨巨巨巨難過」、「有點快樂」……這種描述。

「巨巨巨巨巨巨難過」之后,聲音就變成了這樣。

結果他們使用常見測試集,包括 LibriSpeech-test-clean、SeedTTS test-zh、SeedTTS test-en和AIShell-1 test對IndexTTS2模型以及其他代表性模型進行了評估,

可以看到,除了AIShell-1 test測試外,其他評測都實現了SOTA。

在 AIShell-1 測試中,IndexTTS2 在 SS 方面僅落后於Ground Truth 0.004,在WER方面僅比IndexTTS差0.038%。

而在情感性能比較上,IndexTTS2也實現了情感表達和文本準確性上面的雙重SOTA。字詞錯誤率(WER)僅為1.883%。

在時長控制的準確性上,可以看到指定市場的Token數錯誤均小於0.02%。

此外,他們還進行了兩組消融實驗,以驗證各個模塊的貢獻:刪除GPT潛在表徵;刪除S2M模塊。

GPT潛在表徵它在語音的發音和清晰度方面發揮了重要作用,刪除它會導致所有數據集上指標下降,

用MaskGCT的S2A模塊(針對離散聲標記)替換S2M模塊,結果發現在表明情感保真度和語音準確度都有所下降,以及合成質量上也有所下降。

這意味着,S2M模塊大大提高了合成語音的保真度和感知自然度。

如何實現?

文本轉語音 (TTS) 模型通常分為自迴歸系統和非自迴歸系統。

雖然自迴歸系統在語音自然度方面表現出一定優勢,但其逐個 token 的生成機制使其難以精確控制合成語音的時長。

這在視頻配音等需要嚴格音視頻同步的應用中是一個關鍵限制。

據介紹,IndexTTS2是首個將精確時長控制和自然時長生成相結合的自迴歸零樣本TTS模型。

在這之前,B站團隊還曾發佈過1.0和1.5版本。

IndexTTS2由三個核心模塊組成:

文本到語義(T2S)、語義到語音(S2M)和BigVGANv2 聲碼器。

T2S使用源文本、風格提示、音色提示以及可選的語音token數字作為輸入,生成語義token。

最后,BigVGANv2將旋律譜圖轉換為目標語音波形。

具體看T2S任務,團隊將其表述為自迴歸語音Token預測任務。

他們採用與傳統大語言模型相同的訓練方法,即預測下一個Token。不過不同的是,他們引入了兩個關鍵創新:時常控制和情感控制

情感適配器(紅色虛線)用於從風格提示中提取情感特徵,然后將其作為文本到語義流程的輸入,以重建情感。

在第一階段,團隊使用基於 Conformer 的情緒感知器條件器(emo perceiverconditioner),它用於從風格提示中提取情緒嵌入,專門對情緒數據進行訓練。

爲了將特定情感信息與説話者的相關屬性(如口音、節奏)區分開來,團隊還引入了梯度反轉層。

在訓練過程中,風格提示源於真實語音;在推理過程中,風格提示可被情感參考音頻所替代,該音頻可能來自不同的説話者。

再來看基於流匹配的S2M模塊,它結合GPT潛在表徵來提升語音穩定性。

這一過程需以音色參考音頻為條件,並融合T2S模塊生成的語義編碼。針對深度情感演繹時易出現的發音含糊問題,本階段採用雙重解決策略:其一是對BERT模型提取的文本表徵進行幀級對齊后作為輔助輸入;其二是將T2S模塊的GPT潛在特徵作為補充信息。

代號H?

不過話說回來,最近B站被曝出正在加速推進視頻播客戰略。

什麼意思呢?

就是用一種「能看」就不用「聽」的播客。

與此同時,內部還啟動了代號為「代號H」的AI創作工具的同步研發。

沒準兒,這個IndexTTS2就是他們代號H中的一環呢。

參考鏈接:

https://www.reddit.com/r/LocalLLaMA/comments/1lyy39n/indextts2_the_most_realistic_and_expressive/

https://arxiv.org/abs/2506.21619

https://arxiv.org/abs/2502.05512

https://index-tts.github.io/index-tts2.github.io/

https://github.com/index-tts/index-tts2.github.io

(聲明:本文僅代表作者觀點,不代表新浪網立場。)

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。