AI語音賽道MiniMax再爆發，一場技術與市場的雙重角逐

2025-08-08 16:38

2025年，大模型領域無疑是行業焦點，而AI語音賽道更是熱鬧非凡，各路資本紛紛爭搶入場券。據不完全統計，僅上半年就有4家初創公司獲得超過3億美元融資。

今年6月，Wispr Flow完成3000萬美元A輪融資；3月，Cartesia完成6400萬美元融資，Hume AI完成5000萬美元融資；1月份，ElevenLabs宣佈完成1.8億美元C輪融資等。

除了資本加持，今年以來Amazon、OpenAI和Google等科技巨頭紛紛下場發佈自己的語音大模型或語音產品。今年3月，OpenAI一口氣發佈三款語音大模型：GPT-4o Transcribe和GPT-4o MiniTranscribe，以及GPT-4o MiniTTS；4月，亞馬遜推出AI語音模型Nova Sonic；Google也在Veo3中整合了一個強大的語音模型，Siri也被曝出或將被ChatGPT或Claude等大模型接管。

跑在國際大模型前列的「優秀課代表」MiniMax，也在AI語音賽道發起了一次技術迭代脈衝波。8月7日，MiniMax正式發佈新一代語音生成模型Speech 2.5，相比5月發佈的Speech 02，Speech 2.5有三大新突破：多語種表現力更強、音色復刻更像、40個語種覆蓋更廣。

然而，資本與技術僅是一方面，另一方面，能否在可商業化的場景中實現產品的真正落地，纔是決定勝負的關鍵。恰恰，在AI語音商業化落地方面，MiniMax也同樣走在了前面。

從「聽個響兒」到聽得好

MiniMax為市場帶來了新突破

曾幾何時，AI語音的核心使命僅僅是解決「從無到有」的發聲問題。以有聲閲讀為例，行業早期的普遍做法是引入傳統TTS（文本轉語音）技術，以滿足用户從看小説到聽小説的基礎需求。但彼時的AI語音，往往僅限於單調的男女聲切換，音色機械呆板，沒有靈魂。

但市場需求指針早已悄然轉向，用户不再滿足於「聽個響兒」。市場以強烈的需求，倒逼着語音大模型技術來了一場「技術進化」。

2023年，起點讀書與MiniMax合作共建，將MiniMax語音大模型能力接入有聲書場景，打造AI朗讀角色「説書先生」和「狐狸小姐」，在自然度、還原度、保真度上相較傳統語音方案擁有跨時代的優勢。有了MiniMax語音大模型能力的「神助攻」，讓起點讀書的有聲書體驗有了一種脱胎換骨的感覺，受到了用户的廣泛好評。

MiniMax合作共建的AI朗讀角色讓用户產生了極強的黏性

如今，起點讀書的用户可以隨心所欲地在「説書先生」的沉穩磁性、「鄰家少女」的活潑可人、「狐狸小姐」的聰慧靈動，或是「温柔校花」的甜美清澈等一系列極具個性化的AI音色中自由切換。這不僅僅是音色的豐富，更是AI語音從冰冷的「朗讀工具」，向能夠塑造角色、傳遞情感的「表達媒介」的華麗轉身。

「在與MiniMax合作的這兩年期間，我們逐漸發現用户對於語音擁有極強的黏性，一個新的音色得到用户認可和喜愛后非常難替換。」起點讀書產品負責人常馨月説，「這導致后來每次對於音色的迭代都需要非常小心。」

這無疑印證了優質AI聲音的獨特魅力。這不僅直接提升了用户體驗，更為「聲音IP」這一新興商業模式的探索與引爆，埋下了關鍵的伏筆。目前，起點讀書正在使用MiniMax語音大模型的克隆能力，讓用户能夠擁有更多的創作工具，滿足很大一部分想探索個人IP用户的需求。

讓AI説「人話」

開啟「AI+IP」的聲音經濟新賽道

如果説滿足用户對「好聲音」的追求是上半場的必修課，那麼賦予AI獨特的「人格」則是下半場商業價值增長的「殺手鐗」。

教育行業是這一趨勢的典型代表。傳統模式下，低成本的「因材施教」難以實現。但高途與MiniMax聯手打造的「AI阿祖」——一款以知名演員吳彥祖音色為藍本的AI口語陪練，打破了這一困境。高途方面認為，將AI語音與「人格化、IP化」相結合，是實現教育平權和個性化教學的有效路徑。市場的反響也印證了這一點，「AI阿祖」課程上線后迅速引爆市場，如今累計銷售額已超千萬。

而這場掘金賽的版圖，早已超越了單純的聲音復刻。不久前，全球知名廣告營銷公司S4Capital旗下Monks（摩課士）與MiniMax達成戰略合作，藉助MiniMax先進的多模態大模型技術和通用Agent，曾經耗時數日的提案構思與初稿生成，被壓縮至分秒之間，讓創意實現了「光速」孵化。

Monks大中華區董事總經理Rogier Bikker表示：「我們非常高興與MiniMax達成戰略合作。MiniMax的旗艦視頻模型和海螺AI為我們的客户提供了無與倫比的AI驅動視頻生成質量。」

這一切的背后，是核心技術的持續突破。近日，MiniMax又發佈了新一代語音生成模型Speech 2.5，再次刷新了全球語音模型的性能上限。相比此前登頂全球權威榜單的Speech-02，Speech 2.5在多語種表現力、音色復刻精準度及語種覆蓋範圍上實現了三大飛躍，覆蓋全球40個語種。

，覆蓋全球40個語種

這一技術突破迅速獲得了市場的廣泛認可，不僅國內的高途教育、喜馬拉雅、網易等頭部平臺選擇了MiniMax Speech，在海外，Vapi、Pipecat等Agent平臺以及Hedra、Icon等頭部AI應用也紛紛接入。更具吸引力的是，Speech 2.5在性能大幅提升的同時，延續了極高的性價比，進一步降低了全球企業與創作者使用頂尖AI語音技術的門檻。

在美國，硅谷知名數字人公司Hedra的負責人表示，MiniMax Speech-02在東亞語言方面表現尤為突出，雙方合作不僅整合了全球先進技術資源，更具戰略意義的是，它有助於構建一個多元且富有韌性的全球AI技術供應鏈。Hedra與MiniMax的合作依託高質量、多語言AI語音生成技術，特別是在虛擬人、元宇宙等新興的「聲音驅動視覺」應用領域，助力獨立創作者及中小型團隊以更低成本製作專業級音頻內容，從而更好地服務全球用户。

從「擬人」到「理解」

AI語音的下一站——「情感智能」

當AI語音在「説得像、有特色」方面日臻化境后，業界的目光已投向更具想象力的未來：如何讓AI不僅形似，更能神似，真正「理解」人類的語言與情感？

深圳躍然創新（Haivivi）與MiniMax聯手打造的AI語音掛件玩具「Bubble Pal」，為我們描繪了這一圖景。這款產品可以附着在任意毛絨玩具上，讓玩具「活」起來。它能根據兒童喜愛的卡通IP進行音色復刻，更能根據對話文本中藴含的情緒，如「哭着説」或「開心地宣佈」，演繹出相應的悲傷或喜悦。這標誌着AI語音正從一個「聲音復讀機」，進化為一個能夠初步「共情」的智能夥伴。

讓聲音擁有了更豐富的情緒表達，成為一個可以與孩子「共情」的智能夥伴

「大模型出現之初，我們就期待它與語音技術的深度融合。」躍然創新COO高峰表示，「之前的人工智能音箱無法很好地處理用户的情緒化交互，而新一代AI語音技術讓這成為可能。」高峰強調，AI語音為傳統玩具產業帶來了顛覆性的改變：「讓玩具與人有了真正意義上的交流互動，不再是單向的內容輸出。」

展望未來，各行業對AI語音的期待仍在不斷提升。高途認為，「具備情緒表達和情感需求的AI將極具競爭力」；躍然創新則致力於將情感理解、長期記憶和個性化衍生能力更深入地融入每一次娛樂交互。

在這場由市場需求與技術創新共同譜寫的「聲音」交響曲中，無論是科技巨頭，還是像MiniMax這樣的新興力量，都在攜手合作夥伴，共同發掘聲音的無盡可能。隨着AI在情感理解、自主交互等方面的持續突破，一個由「好聲音」驅動的，更智能、更具共情力的全新交互時代，正加速到來。

文/林一

AI語音賽道MiniMax再爆發，一場技術與市場的雙重角逐

推薦文章

美股機會日報 | 凌晨3點！美聯儲將公佈1月貨幣政策會議紀要，納指期貨漲近0.5%；13F大曝光！巴菲特連續三季減持蘋果

美股機會日報 | 阿里發佈千問3.5！性能媲美Gemini 3；馬斯克稱Cybercab將於4月開始生產

港股周報 | 中國大模型「春節檔」打響！智譜周漲超138%；鉅虧超230億！美團周內重挫超10%

一周財經日曆 | 港美股迎「春節+總統日」雙假期！萬億零售巨頭沃爾瑪將發財報

從軟件到房地產，美國多板塊陷入AI恐慌拋售潮

Meta計劃為智能眼鏡添加人臉識別技術

危機四伏，市場卻似乎毫不在意

財報前瞻 | 英偉達Q4財報放榜在即！高盛、瑞銀預計將大超預期，兩大關鍵催化將帶來意外驚喜？