語音大模型「MaskGCT」正式開源，為短劇、遊戲、數字人等產品提供服務

2024-10-25 09:00

36氪(KRKR) 0

文 | 劉士武（36氪遊戲）

10月24日，趣丸科技宣佈與香港中文大學（深圳）聯合研發的語音大模型「MaskGCT」正式在Amphion系統中開源，面向全球用户開放使用。區別於傳統TTS模型，MaskGCT採用掩碼生成模型與語音表徵解耦編碼技術，在聲音克隆、跨語種合成、語音控制等任務環節中能夠快速落地。

測試結果（來源：MaskGCT）

據瞭解，相較於現有的TTS大模型，MaskGCT在語音的相似度、質量和穩定性上進一步突破，在三個TTS基準數據集上都達到了SOTA效果。其顯著特點如下：

秒級超逼真的聲音克隆：提供3秒音頻樣本即可復刻人類、動漫、「耳邊細語」等任意音色，且能完整復刻語調、風格和情感。
更精細可控的語音生成：可靈活調整生成語音的長度、語速和情緒，支持通過編輯文本編輯語音，並保持韻律、音色等方面的高度一致。
高質量多語種語音數據集：訓練於香港中文大學（深圳）和趣丸科技等機構聯合推出的10萬小時數據集Emilia，是全球最大且最為多樣的高質量多語種語音數據集之一，實現中英日韓法德6種語言的跨語種合成。

MaskGCT的研發工作由港中大（深圳）、趣丸科技人工智能聯合實驗室成員完成。作為一個大規模的零樣本TTS模型，MaskGCT採用非自迴歸掩碼生成Transformer，無需文本與語音的對齊監督和音素級持續時間預測，其技術突破性在於採用掩碼生成模型與語音表徵解耦編碼的創新範式。

MaskGCT大模型翻譯《黑神話：悟空》動畫片段（視頻來源：趣丸千音）

根據官方實驗表明，MaskGCT在語音質量、相似度和可理解性方面優於當前絕大部分的TTS模型，並且在模型規模和訓練數據量增加時表現更佳，同時能夠控制生成語音的總時長。

MaskGCT已在香港中文大學（深圳）與上海人工智能實驗室聯合開發的開源系統Amphion發佈

值得一提的是，MaskGCT是一個兩階段模型。在第一階段，模型使用文本預測從語音自監督學習（SSL）模型中提取的語義標記；在第二階段，模型基於這些語義標記預測聲學標記（遵循掩碼預測學習範式）。

在訓練過程中，MaskGCT學習根據給定的條件和提示預測掩碼的語義或聲學標記。在推理過程中，模型以並行方式生成指定長度的標記。通過對10萬小時的自然語音進行實驗，結果表明MaskGCT在質量、相似度和可理解性方面優於其他現有的零樣本TTS系統。

目前，MaskGCT在短劇出海、數字人、智能助手、有聲讀物、輔助教育等領域擁有豐富的應用場景。爲了加快落地應用，在安全合規的前提下，趣丸科技開發了多語種速譯智能視聽平臺「趣丸千音」，可實現一鍵上傳視頻即可快速翻譯成多語種版本，幷包含字幕修復與翻譯、語音翻譯、脣音同步等功能，大幅降低過往昂貴的人工翻譯成本和宂長的製作周期，成為影視、遊戲、短劇等內容出海的新選擇。

視頻來源：趣丸千音

《2024年短劇出海白皮書》顯示，2023年海外市場規模高達650億美元，約為國內市場的12倍，短劇出海正成為藍海新賽道。基於MaskGCT的趣丸千音，有機會幫助國產短劇以更低成本、更快捷的方式「走出去」，提升中國文化內容的出海效率。

語音大模型「MaskGCT」正式開源，為短劇、遊戲、數字人等產品提供服務

推薦文章

一周財經日曆 | 壓軸登場！小米、拼多多等重磅財報來襲；深演智能、雲英谷科技等新股下周上市；港美股下周一休市一日

港股周報 | 利好共振！芯片股集體狂飆，兆易創新周漲超43%；阿里致股東信：將AI+雲打造成新增長動力；聯想飆漲20%刷歷史新高

美股機會日報 | 今晚11點！特朗普將親自「加冕」美聯儲新主席沃什；英偉達Vera Rubin機架售價狂飆！產業鏈所有組件迎漲價熱潮

SpaceX在發現多項問題后推迟「星艦」第12次試飛

華盛早報 | 沃什今晚11點宣誓就職美聯儲主席！雷軍稱未來兩年內存或持續漲價；Q1恆指季檢結果今晚公佈

特朗普再威脅伊朗交出濃縮鈾！稱到手后或銷燬

美股機會日報 | 伊朗稱高濃縮鈾不得運往國外；特朗普再出手！美國政府20億美元佈局量子計算；SpaceX正式遞表衝刺納斯達克

一圖看懂 | 連續兩季盈利！蔚來Q1經營利潤0.66億元，交付量超8萬輛；毛利率創近四年新高