熱門資訊> 正文

B站下場自研AI配音！純正美音版甄嬛傳流出，再不用看小紅書學英語了（Doge）

2025-07-14 17:08

白交發自凹非寺

量子位 | 公眾號 QbitAI

當甄嬛傳、讓子彈飛全都轉英文，會怎樣？

小紅書經常刷到這種視頻，然后英語就這麼絲滑地經過我的腦子。

現在，AI就可以搞定！就像這樣。

不僅符合原版的音色和情感，還能保證脣形同步。

很好，以后再不需要看小紅書麻煩配音老師來教我英語了（Doge）。

而這次出手的，正好是那個創造諸多魔性視頻的B站。真是好你個B站。

他們發佈的TTS模型IndexTTS2，在社區引發不少的關注。

網友表示：已經迫不及待地想用它來做搞笑視頻了。

IndexTTS2：AI配音無壓力

它最大的亮點，就在於在實現時長控制的同時，還能再現符合Prompt的情感特徵。

它支持兩種生成方式。

一種是明確token數量，以精準控制時長。

比如原音頻是這樣：

要求替換成的文本是隻有當科技為本地社羣創造價值的時候，才真正有意義。

那麼控制它的時長分別為原來的0.75倍、1倍（原速）、1.25倍。效果是這樣的。

另一種是無需手動輸入，自動生成語音，同時保留輸入提示的韻律特徵。

比如生氣的情感。

指定替換文本：你在我們屋里走路的時候，發現了一條遙遠的路，這是不夠奇怪的。

此外還支持音頻和情緒表達獨立控制。

不同的音頻提示可以分別作為音色和情緒表達的參考，也可以用描述性的文本也能用來情緒參考，同時保持音色不變。

比如像「我感覺很沮喪」、「巨巨巨巨巨巨難過」、「有點快樂」……這種描述。

「巨巨巨巨巨巨難過」之后，聲音就變成了這樣。

結果他們使用常見測試集，包括 LibriSpeech-test-clean、SeedTTS test-zh、SeedTTS test-en和AIShell-1 test對IndexTTS2模型以及其他代表性模型進行了評估，

可以看到，除了AIShell-1 test測試外，其他評測都實現了SOTA。

在 AIShell-1 測試中，IndexTTS2 在 SS 方面僅落后於Ground Truth 0.004，在WER方面僅比IndexTTS差0.038%。

而在情感性能比較上，IndexTTS2也實現了情感表達和文本準確性上面的雙重SOTA。字詞錯誤率（WER）僅為1.883%。

在時長控制的準確性上，可以看到指定市場的Token數錯誤均小於0.02%。

此外，他們還進行了兩組消融實驗，以驗證各個模塊的貢獻：刪除GPT潛在表徵；刪除S2M模塊。

GPT潛在表徵它在語音的發音和清晰度方面發揮了重要作用，刪除它會導致所有數據集上指標下降，

用MaskGCT的S2A模塊（針對離散聲標記）替換S2M模塊，結果發現在表明情感保真度和語音準確度都有所下降，以及合成質量上也有所下降。

這意味着，S2M模塊大大提高了合成語音的保真度和感知自然度。

如何實現？

文本轉語音 (TTS) 模型通常分為自迴歸系統和非自迴歸系統。

雖然自迴歸系統在語音自然度方面表現出一定優勢，但其逐個 token 的生成機制使其難以精確控制合成語音的時長。

這在視頻配音等需要嚴格音視頻同步的應用中是一個關鍵限制。

據介紹，IndexTTS2是首個將精確時長控制和自然時長生成相結合的自迴歸零樣本TTS模型。

在這之前，B站團隊還曾發佈過1.0和1.5版本。

IndexTTS2由三個核心模塊組成：

文本到語義（T2S）、語義到語音（S2M）和BigVGANv2 聲碼器。

T2S使用源文本、風格提示、音色提示以及可選的語音token數字作為輸入，生成語義token。

最后，BigVGANv2將旋律譜圖轉換為目標語音波形。

具體看T2S任務，團隊將其表述為自迴歸語音Token預測任務。

他們採用與傳統大語言模型相同的訓練方法，即預測下一個Token。不過不同的是，他們引入了兩個關鍵創新：時常控制和情感控制。

情感適配器（紅色虛線）用於從風格提示中提取情感特徵，然后將其作為文本到語義流程的輸入，以重建情感。

在第一階段，團隊使用基於 Conformer 的情緒感知器條件器（emo perceiverconditioner），它用於從風格提示中提取情緒嵌入，專門對情緒數據進行訓練。

爲了將特定情感信息與説話者的相關屬性（如口音、節奏）區分開來，團隊還引入了梯度反轉層。

在訓練過程中，風格提示源於真實語音；在推理過程中，風格提示可被情感參考音頻所替代，該音頻可能來自不同的説話者。

再來看基於流匹配的S2M模塊，它結合GPT潛在表徵來提升語音穩定性。

這一過程需以音色參考音頻為條件，並融合T2S模塊生成的語義編碼。針對深度情感演繹時易出現的發音含糊問題，本階段採用雙重解決策略：其一是對BERT模型提取的文本表徵進行幀級對齊后作為輔助輸入；其二是將T2S模塊的GPT潛在特徵作為補充信息。

代號H？

不過話說回來，最近B站被曝出正在加速推進視頻播客戰略。

什麼意思呢？

就是用一種「能看」就不用「聽」的播客。

與此同時，內部還啟動了代號為「代號H」的AI創作工具的同步研發。

沒準兒，這個IndexTTS2就是他們代號H中的一環呢。

參考鏈接：

https://www.reddit.com/r/LocalLLaMA/comments/1lyy39n/indextts2_the_most_realistic_and_expressive/

https://arxiv.org/abs/2506.21619

https://arxiv.org/abs/2502.05512

https://index-tts.github.io/index-tts2.github.io/

https://github.com/index-tts/index-tts2.github.io

（聲明：本文僅代表作者觀點，不代表新浪網立場。）

B站下場自研AI配音！純正美音版甄嬛傳流出，再不用看小紅書學英語了（Doge）

推薦文章

華盛早報丨要求審查美聯儲！美財長貝森特激進發言；"Meme股"黑馬Opendoor再暴漲42%觸發熔斷

特朗普媒體公司囤積20億美元比特幣！加密貨幣推動特朗普淨資產大幅增長

聚焦中概 | 蔚來漲近6%，文遠知行漲逾5%

美股異動 | OPEN暴漲超41%！納微半導體大漲超25%

美股機會日報丨以太幣儲備概念股盤前大漲！穩定幣監管法案正式簽署；高盛預計美股未來12個月再漲10%

AI和機器人有望刺激特斯拉股價？財報季提前部署期權策略

華盛早報丨科技「七巨頭「財報來襲定調美股走向！金融科技公司Block獲入標普500指數

港股周報丨三家外賣平臺被約談！「瘋狂星期六」或不再瘋狂；花旗呼籲增持中國互聯網、科技及消費板塊