熱門資訊> 正文
2025-09-18 19:04
9月18日,面壁智能發佈0.5B參數尺寸的語音生成基座模型VoxCPM。該模型由面壁智能與清華大學深圳國際研究生院人機語音交互實驗室(THUHCSI)聯合研發。目前,VoxCPM已在GitHub、Hugging Face等平臺開源。
VoxCPM 是一個端到端的擴散自迴歸語音生成模型,旨在從輸入文本直接合成高質量的連續語音表徵,並且支持流式地實時輸出生成音頻片段。與當前 CosyVoice、FireRedTTS 及 SparkTTS 等普遍遵循將連續的語音信號轉換為離散的聲學詞元(Speech token)序列進行處理的方法不同,VoxCPM 採用融合層次化語言建模和局部擴散生成的端到端 TTS 方案。
據介紹,VoxCPM 在 Seed-TTS-EVAL 等權威語音合成評測榜單中,相似度、詞錯誤率等關鍵指標上均達到了業界 SOTA 水平。在單 NVIDIA RTX 4090 顯卡上實現了 RTF(Real-Time Factor)≈ 0.17 的高效推理速度,且理論上支持流式輸出。該模型採用融合層次化語言建模和局部擴散生成的連續表徵端到端 TTS 方案,顯著提升了語音生成的表現力、自然度、穩定性。
VoxCPM 可根據對文本內容的超強理解,自主選擇合適的聲音、腔調、韻律風格生成音頻。比如,化身為天氣預報員字正腔圓的播報、英雄將領戰前慷慨激昂的演講,還可以模擬方言主播等。
在中文語境下,VoxCPM 支持公式、符號音頻合成。此外,VoxCPM還支持音素標記替換,實現自定義讀音糾正等功能。