熱門資訊> 正文
2025-07-14 17:08
白交 發自 凹非寺
量子位 | 公眾號 QbitAI
當甄嬛傳、讓子彈飛全都轉英文,會怎樣?
小紅書經常刷到這種視頻,然后英語就這麼絲滑地經過我的腦子。
現在,AI就可以搞定!就像這樣。
不僅符合原版的音色和情感,還能保證脣形同步。
很好, 以后再不需要看小紅書麻煩配音老師來教我英語了(Doge)。
而這次出手的,正好是那個創造諸多魔性視頻的B站。真是好你個B站。
他們發佈的TTS模型IndexTTS2,在社區引發不少的關注。
網友表示:已經迫不及待地想用它來做搞笑視頻了。
IndexTTS2:AI配音無壓力
它最大的亮點,就在於在實現時長控制的同時,還能再現符合Prompt的情感特徵。
它支持兩種生成方式。
一種是明確token數量,以精準控制時長。
比如原音頻是這樣:
要求替換成的文本是隻有當科技為本地社羣創造價值的時候,才真正有意義。
那麼控制它的時長分別為原來的0.75倍、1倍(原速)、1.25倍。效果是這樣的。
另一種是無需手動輸入,自動生成語音,同時保留輸入提示的韻律特徵。
比如生氣的情感。
指定替換文本:你在我們屋里走路的時候,發現了一條遙遠的路,這是不夠奇怪的。
此外還支持音頻和情緒表達獨立控制。
不同的音頻提示可以分別作為音色和情緒表達的參考,也可以用描述性的文本也能用來情緒參考,同時保持音色不變。
比如像「我感覺很沮喪」、「巨巨巨巨巨巨難過」、「有點快樂」……這種描述。
「巨巨巨巨巨巨難過」之后,聲音就變成了這樣。
結果他們使用常見測試集,包括 LibriSpeech-test-clean、SeedTTS test-zh、SeedTTS test-en和AIShell-1 test對IndexTTS2模型以及其他代表性模型進行了評估,
可以看到,除了AIShell-1 test測試外,其他評測都實現了SOTA。
在 AIShell-1 測試中,IndexTTS2 在 SS 方面僅落后於Ground Truth 0.004,在WER方面僅比IndexTTS差0.038%。
而在情感性能比較上,IndexTTS2也實現了情感表達和文本準確性上面的雙重SOTA。字詞錯誤率(WER)僅為1.883%。
在時長控制的準確性上,可以看到指定市場的Token數錯誤均小於0.02%。
此外,他們還進行了兩組消融實驗,以驗證各個模塊的貢獻:刪除GPT潛在表徵;刪除S2M模塊。
GPT潛在表徵它在語音的發音和清晰度方面發揮了重要作用,刪除它會導致所有數據集上指標下降,
用MaskGCT的S2A模塊(針對離散聲標記)替換S2M模塊,結果發現在表明情感保真度和語音準確度都有所下降,以及合成質量上也有所下降。
這意味着,S2M模塊大大提高了合成語音的保真度和感知自然度。
如何實現?
文本轉語音 (TTS) 模型通常分為自迴歸系統和非自迴歸系統。
雖然自迴歸系統在語音自然度方面表現出一定優勢,但其逐個 token 的生成機制使其難以精確控制合成語音的時長。
這在視頻配音等需要嚴格音視頻同步的應用中是一個關鍵限制。
據介紹,IndexTTS2是首個將精確時長控制和自然時長生成相結合的自迴歸零樣本TTS模型。
在這之前,B站團隊還曾發佈過1.0和1.5版本。
文本到語義(T2S)、語義到語音(S2M)和BigVGANv2 聲碼器。
T2S使用源文本、風格提示、音色提示以及可選的語音token數字作為輸入,生成語義token。
最后,BigVGANv2將旋律譜圖轉換為目標語音波形。
具體看T2S任務,團隊將其表述為自迴歸語音Token預測任務。
他們採用與傳統大語言模型相同的訓練方法,即預測下一個Token。不過不同的是,他們引入了兩個關鍵創新:時常控制和情感控制。
情感適配器(紅色虛線)用於從風格提示中提取情感特徵,然后將其作為文本到語義流程的輸入,以重建情感。
在第一階段,團隊使用基於 Conformer 的情緒感知器條件器(emo perceiverconditioner),它用於從風格提示中提取情緒嵌入,專門對情緒數據進行訓練。
爲了將特定情感信息與説話者的相關屬性(如口音、節奏)區分開來,團隊還引入了梯度反轉層。
在訓練過程中,風格提示源於真實語音;在推理過程中,風格提示可被情感參考音頻所替代,該音頻可能來自不同的説話者。
再來看基於流匹配的S2M模塊,它結合GPT潛在表徵來提升語音穩定性。
這一過程需以音色參考音頻為條件,並融合T2S模塊生成的語義編碼。針對深度情感演繹時易出現的發音含糊問題,本階段採用雙重解決策略:其一是對BERT模型提取的文本表徵進行幀級對齊后作為輔助輸入;其二是將T2S模塊的GPT潛在特徵作為補充信息。
代號H?
不過話說回來,最近B站被曝出正在加速推進視頻播客戰略。
什麼意思呢?
就是用一種「能看」就不用「聽」的播客。
與此同時,內部還啟動了代號為「代號H」的AI創作工具的同步研發。
沒準兒,這個IndexTTS2就是他們代號H中的一環呢。
參考鏈接:
https://www.reddit.com/r/LocalLLaMA/comments/1lyy39n/indextts2_the_most_realistic_and_expressive/
https://arxiv.org/abs/2506.21619
https://arxiv.org/abs/2502.05512
https://index-tts.github.io/index-tts2.github.io/
https://github.com/index-tts/index-tts2.github.io
(聲明:本文僅代表作者觀點,不代表新浪網立場。)