熱門資訊> 正文
2026-06-23 16:25
新浪科技訊 6月23日下午消息,近日,網易有道發佈「子曰4.0」TTS語音合成引擎Confucius4-TTS,是業內首個支持14種語言跨語種無口音、且無需參考文本即可完成語音克隆的開源模型。該模型在跨語種語音克隆、免參考文本建模、情感韻律遷移和本地化部署等關鍵維度上達到國際最前沿水平,現已面向全球用户全量開源。
目前,網易有道Confucius4-TTS已全面支持中文、英語、西班牙語等14種語言的自然流利表達。
同時,網易有道Confucius4-TTS實現了全面突破:第一,用户僅需提供3秒音頻素材,模型即可完成音色克隆。克隆音色與原聲相似度超過85%,克隆任務準確度高達97%。第二,支持14種語言無縫切換,消除跨語種口音壁壘。第三,實現情感韻律的無損跨語種遷移,Confucius4-TTS能自動提取、解析參考音頻中的情感特徵。
據悉,Confucius4-TTS引入了GPT式語義大模型作為主干,搭配基於SSL預訓練特徵和ECAPA-TDNN的可學習説話人編碼器,並採用Flow Matching流匹配生成框架。目前,網易有道已將該模型全量開源。Confucius4-TTS採用Apache開源協議,面向全球開發者開放完整模型權重和配套工具鏈,商用沒有限制。開發者可以下載54G完整資源包,本地離線部署運行。
責任編輯:宋雅芳