繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

Meta發佈生成式AI語音模型Voicebox,精通六種語言,支持多種語音功能

2023-06-20 06:40

美國時間6月16日,Meta正式發佈語音生成模型Voicebox。據官網介紹,通過非自迴歸「流匹配」(Flow Matching)技術,研究人員無需手動標記不同數據,即可利用長達5萬小時的語言和有聲書文本訓練Voicebox。Voicebox生成語音的速度,可到達目前最先進的自迴歸模型的約20倍。

不同於過去的語音AI模型一般只有單一用途,Voicebox基於同一通用模型,即可實現基於文本的語音生成、語音編輯和降噪、跨語言轉換、多風格語言採樣等功能。

在英語文本到文字的轉換過程中,Voicebox的平均單詞錯誤率與音頻相似度(相較於真實語音)分別為1.9%和0.681,而目前最先進的英語模型Vall-E,則分別為5.9%和0.580。

此外,Voicebox還支持合成包括英語、法語、西班牙語、德語、波蘭語和葡萄牙語等六種語言的語音。在跨語言轉換的表現上,Voicebox同樣優於該領域領先的YourTTS,平均單詞錯誤率從10.9%降低到了5.2%,音頻相似度則從0.335提高到了0.481。

Voicebox與其他語音生成模型單詞錯誤率對比。來源:Meta
Voicebox與其他語音生成模型音頻相似度對比。來源:Meta

在訓練過程中,Voicebox會得到一個音頻樣本和相應的文本,然后部分音頻將被屏蔽,該模型需要根據前后音頻和給定的文本,生成被屏蔽的音頻片段。

經過這種訓練的模型可以直接或在少量微調后,適用於許多任務。以降噪和語音錯誤修改爲例,Voicebox在實現這兩項看似不同的功能時,均是首先屏蔽出現噪音或錯誤的部分,然后基於前后已有的音頻和原文本或修改后的文本,重新生成該部分語音。

這也是Meta研發Voicebox的主要目標。在一篇披露Voicebox技術細節的論文中,Meta研究人員寫道:「研究目標是建立一個單一模型,通過上下文學習來執行多種基於文本的語音生成任務。」

Voicebox通過前后音頻學習生成語音。來源:Meta

Voicebox並非是為特定應用程序訓練的生成模型,因此還可以執行許多未經過訓練的其他任務。

輸入長度僅為兩秒的音頻樣本,Voicebox就可以獲得相應的音頻樣式。而后,使用者只需輸入文本就可以生成語音。Meta表示,這項功能可為語言功能障礙人士提供語音,或為NPC和虛擬助手定製聲音。

同時,Voicebox跨語言轉換的功能也可以幫助不同語言的人們進行順暢的交流。基於六種語言的語音樣本和給出的文本,使用者在Voicebox的幫助下便可以輕松生成目標語言的語音。

Voicebox還可以將其生成的語音用於模型訓練。Meta的研究結果表明,與真實語音訓練出的模型相比,使用Voicebox生成的語音訓練出的語音識別模型表現幾乎一樣好。

Voicebox與其他主流語音生成模型功能對比。來源:Meta

儘管Meta研究團隊已經發布了披露技術細節的相關論文,但Meta並沒有公開Voicebox的模型或代碼,認為「需要在開放和責任之間找到適當的平衡」。

Meta在社交平臺上公開表示:「與其他強大的人工智能創新技術一樣,我們認為這項技術也可能會被濫用,造成意外傷害。」

免責聲明:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,亦並非旨在提供任何投資意見。有關內容不構成任何專業意見、買賣任何投資產品或服務的要約、招攬或建議。本頁面的內容可隨時進行修改,而本公司毋須另作通知。本公司已盡力確保以上所載之數據及內容的準確性及完整性,如對上述內容有任何疑問,應徵詢獨立的專業意見,本公司不會對任何因該等資料而引致的損失承擔任何責任。以上內容未經香港證監會審閲。

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。