熱門資訊> 正文
2026-06-23 16:47
【環球網科技報道 記者 李文瑤】6月23日消息,近期,網易有道發佈「子曰4.0」TTS語音合成引擎Confucius4-TTS,這是業內首個支持14種語言跨語種無口音、且無需參考文本即可完成語音克隆的開源模型。
據網易有道介紹,Confucius4-TTS已全面支持中文、英語、西班牙語、法語、德語、韓語、泰語、越南語等14種語言。用户僅需提供3秒音頻素材,無需參考文本與前期訓練,模型即可完成音色克隆,相似度超過85%,克隆任務準確度達97%。輸入中文音頻,模型可使用原聲音色輸出多語種語音,且全程保持音色高度一致。模型還能自動提取參考音頻中的情感特徵,實現語調、韻律與情緒的完整遷移。
在底層架構上,Confucius4-TTS引入了GPT式語義大模型作為主干,搭配可學習説話人編碼器,並採用Flow Matching流匹配生成框架,不再沿用傳統的聲碼器方案。
值得關注的是,網易有道已將模型全量開源,採用Apache開源協議,面向全球開發者開放完整模型權重和配套工具鏈,商用無限制。開發者可下載54GB完整資源包進行本地離線部署。