简体
  • 简体中文
  • 繁体中文

热门资讯> 正文

网易有道发布14语种无口音语音克隆模型并全面开源

2026-06-23 16:47

【环球网科技报道 记者 李文瑶】6月23日消息,近期,网易有道发布“子曰4.0”TTS语音合成引擎Confucius4-TTS,这是业内首个支持14种语言跨语种无口音、且无需参考文本即可完成语音克隆的开源模型。

据网易有道介绍,Confucius4-TTS已全面支持中文、英语、西班牙语、法语、德语、韩语、泰语、越南语等14种语言。用户仅需提供3秒音频素材,无需参考文本与前期训练,模型即可完成音色克隆,相似度超过85%,克隆任务准确度达97%。输入中文音频,模型可使用原声音色输出多语种语音,且全程保持音色高度一致。模型还能自动提取参考音频中的情感特征,实现语调、韵律与情绪的完整迁移。

在底层架构上,Confucius4-TTS引入了GPT式语义大模型作为主干,搭配可学习说话人编码器,并采用Flow Matching流匹配生成框架,不再沿用传统的声码器方案。

值得关注的是,网易有道已将模型全量开源,采用Apache开源协议,面向全球开发者开放完整模型权重和配套工具链,商用无限制。开发者可下载54GB完整资源包进行本地离线部署。

风险及免责提示:以上内容仅代表作者的个人立场和观点,不代表华盛的任何立场,华盛亦无法证实上述内容的真实性、准确性和原创性。投资者在做出任何投资决定前,应结合自身情况,考虑投资产品的风险。必要时,请咨询专业投资顾问的意见。华盛不提供任何投资建议,对此亦不做任何承诺和保证。