繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

網易有道發佈14語種無口音語音克隆模型並全面開源

2026-06-23 16:47

【環球網科技報道 記者 李文瑤】6月23日消息,近期,網易有道發佈「子曰4.0」TTS語音合成引擎Confucius4-TTS,這是業內首個支持14種語言跨語種無口音、且無需參考文本即可完成語音克隆的開源模型。

據網易有道介紹,Confucius4-TTS已全面支持中文、英語、西班牙語、法語、德語、韓語、泰語、越南語等14種語言。用户僅需提供3秒音頻素材,無需參考文本與前期訓練,模型即可完成音色克隆,相似度超過85%,克隆任務準確度達97%。輸入中文音頻,模型可使用原聲音色輸出多語種語音,且全程保持音色高度一致。模型還能自動提取參考音頻中的情感特徵,實現語調、韻律與情緒的完整遷移。

在底層架構上,Confucius4-TTS引入了GPT式語義大模型作為主干,搭配可學習説話人編碼器,並採用Flow Matching流匹配生成框架,不再沿用傳統的聲碼器方案。

值得關注的是,網易有道已將模型全量開源,採用Apache開源協議,面向全球開發者開放完整模型權重和配套工具鏈,商用無限制。開發者可下載54GB完整資源包進行本地離線部署。

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。