Meta發佈生成式AI語音模型Voicebox，精通六種語言，支持多種語音功能

2023-06-20 06:40

美國時間6月16日，Meta正式發佈語音生成模型Voicebox。據官網介紹，通過非自迴歸「流匹配」（Flow Matching）技術，研究人員無需手動標記不同數據，即可利用長達5萬小時的語言和有聲書文本訓練Voicebox。Voicebox生成語音的速度，可到達目前最先進的自迴歸模型的約20倍。

不同於過去的語音AI模型一般只有單一用途，Voicebox基於同一通用模型，即可實現基於文本的語音生成、語音編輯和降噪、跨語言轉換、多風格語言採樣等功能。

在英語文本到文字的轉換過程中，Voicebox的平均單詞錯誤率與音頻相似度(相較於真實語音）分別為1.9%和0.681，而目前最先進的英語模型Vall-E，則分別為5.9%和0.580。

此外，Voicebox還支持合成包括英語、法語、西班牙語、德語、波蘭語和葡萄牙語等六種語言的語音。在跨語言轉換的表現上，Voicebox同樣優於該領域領先的YourTTS，平均單詞錯誤率從10.9%降低到了5.2%，音頻相似度則從0.335提高到了0.481。

在訓練過程中，Voicebox會得到一個音頻樣本和相應的文本，然后部分音頻將被屏蔽，該模型需要根據前后音頻和給定的文本，生成被屏蔽的音頻片段。

經過這種訓練的模型可以直接或在少量微調后，適用於許多任務。以降噪和語音錯誤修改爲例，Voicebox在實現這兩項看似不同的功能時，均是首先屏蔽出現噪音或錯誤的部分，然后基於前后已有的音頻和原文本或修改后的文本，重新生成該部分語音。

這也是Meta研發Voicebox的主要目標。在一篇披露Voicebox技術細節的論文中，Meta研究人員寫道：「研究目標是建立一個單一模型，通過上下文學習來執行多種基於文本的語音生成任務。」

Voicebox並非是為特定應用程序訓練的生成模型，因此還可以執行許多未經過訓練的其他任務。

輸入長度僅為兩秒的音頻樣本，Voicebox就可以獲得相應的音頻樣式。而后，使用者只需輸入文本就可以生成語音。Meta表示，這項功能可為語言功能障礙人士提供語音，或為NPC和虛擬助手定製聲音。

同時，Voicebox跨語言轉換的功能也可以幫助不同語言的人們進行順暢的交流。基於六種語言的語音樣本和給出的文本，使用者在Voicebox的幫助下便可以輕松生成目標語言的語音。

Voicebox還可以將其生成的語音用於模型訓練。Meta的研究結果表明，與真實語音訓練出的模型相比，使用Voicebox生成的語音訓練出的語音識別模型表現幾乎一樣好。

儘管Meta研究團隊已經發布了披露技術細節的相關論文，但Meta並沒有公開Voicebox的模型或代碼，認為「需要在開放和責任之間找到適當的平衡」。

Meta在社交平臺上公開表示：「與其他強大的人工智能創新技術一樣，我們認為這項技術也可能會被濫用，造成意外傷害。」

免責聲明：以上內容僅代表作者的個人立場和觀點，不代表華盛的任何立場，亦並非旨在提供任何投資意見。有關內容不構成任何專業意見、買賣任何投資產品或服務的要約、招攬或建議。本頁面的內容可隨時進行修改，而本公司毋須另作通知。本公司已盡力確保以上所載之數據及內容的準確性及完整性，如對上述內容有任何疑問，應徵詢獨立的專業意見，本公司不會對任何因該等資料而引致的損失承擔任何責任。以上內容未經香港證監會審閲。

Meta發佈生成式AI語音模型Voicebox，精通六種語言，支持多種語音功能

推薦文章

華盛早報 | 伊朗再度關閉霍爾木茲海峽！布、美兩油大漲近3%；美聯儲會議紀要稱有加息可能；Meta推出新AI模型一度大漲9%

新股申購 | 兩隻新股今起招股！「杭州六小龍」之一羣核科技一手入場費3848.43港元，長光辰芯一手入場費4028.23港元

名創優品收入不錯淨利潤腰斬：永輝成最大拖油瓶，被下調盈利預測

中信建投：繼續看好AI板塊 尤其是光通信環節

霍爾木茲海峽，再次關閉！伊朗：「談判基礎」已被破壞

美聯儲會議紀要：美以對伊戰爭或進一步推高通脹 特定情形下不排除重新加息

美股機會日報 | 美伊決戰急剎車！三大期指、黃金狂飆！原油崩盤；今夜2點！美聯儲會議紀要登場，市場緊盯「風險」與「通脹」

仍有15%上行空間！中東停火點燃美股「絕地反擊」情緒，這份「反攻潛力標的清單」請收好

中信建投：繼續看好AI板塊尤其是光通信環節

美聯儲會議紀要：美以對伊戰爭或進一步推高通脹特定情形下不排除重新加息