繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

AI語音賽道MiniMax再爆發,一場技術與市場的雙重角逐

2025-08-08 16:38

2025年,大模型領域無疑是行業焦點,而AI語音賽道更是熱鬧非凡,各路資本紛紛爭搶入場券。據不完全統計,僅上半年就有4家初創公司獲得超過3億美元融資。

今年6月,Wispr Flow完成3000萬美元A輪融資;3月,Cartesia完成6400萬美元融資,Hume AI完成5000萬美元融資1月份,ElevenLabs宣佈完成1.8億美元C輪融資等。

除了資本加持,今年以來Amazon、OpenAI和Google等科技巨頭紛紛下場發佈自己的語音大模型或語音產品。今年3月,OpenAI一口氣發佈三款語音大模型:GPT-4o Transcribe和GPT-4o MiniTranscribe,以及GPT-4o MiniTTS;4月,亞馬遜推出AI語音模型Nova Sonic;Google也在Veo3中整合了一個強大的語音模型,Siri也被曝出或將被ChatGPT或Claude等大模型接管。

8月7日MiniMax正式發佈新一代語音生成模型Speech 2.5

跑在國際大模型前列「優秀課代表」MiniMax也在AI語音賽道發起一次技術迭代脈衝波8月7日,MiniMax正式發佈新一代語音生成模型Speech 2.5,相比5月發佈的Speech 02,Speech 2.5有三大新突破:多語種表現力更強、音色復刻更像、40個語種覆蓋更廣。

然而,資本與技術僅是一方面另一方面,能否在可商業化的場景中實現產品的真正落地,纔是決定勝負的關鍵。恰恰,在AI語音商業化落地方面,MiniMax也同樣走在了前面

「聽個響兒」到 聽得好

MiniMax為市場帶來了新突破

曾幾何時,AI語音的核心使命僅僅是解決「從無到有」的發聲問題。以有聲閲讀為例,行業早期的普遍做法是引入傳統TTS(文本轉語音)技術,以滿足用户從看小説到聽小説的基礎需求。但彼時的AI語音,往往僅限於單調的男女聲切換,音色機械呆板,沒有靈魂。

但市場需求指針早已悄然轉向,用户不再滿足於「聽個響兒」。市場以強烈的需求,倒逼着語音大模型技術來了一場「技術進化」。

2023年,起點讀書與MiniMax合作共建,將MiniMax語音大模型能力接入有聲書場景,打造AI朗讀角色「説書先生」和「狐狸小姐」,在自然度、還原度、保真度上相較傳統語音方案擁有跨時代的優勢。有了MiniMax語音大模型能力的「神助攻」,讓起點讀書的有聲書體驗有了一種脱胎換骨的感覺,受到了用户的廣泛好評。

起點讀書與

MiniMax合作共建AI朗讀角色讓用户產生了極強的黏性

如今,起點讀書的用户可以隨心所欲地在「説書先生」的沉穩磁性、「鄰家少女」的活潑可人、「狐狸小姐」的聰慧靈動,或是「温柔校花」的甜美清澈等一系列極具個性化的AI音色中自由切換。這不僅僅是音色的豐富,更是AI語音從冰冷的「朗讀工具」,向能夠塑造角色、傳遞情感的「表達媒介」的華麗轉身。

「在與MiniMax合作的這兩年期間,我們逐漸發現用户對於語音擁有極強的黏性,一個新的音色得到用户認可和喜愛后非常難替換」起點讀書產品負責人常馨月説,這導致后來每次對於音色的迭代都需要非常小心。

這無疑印證了優質AI聲音的獨特魅力。這不僅直接提升了用户體驗,更為「聲音IP」這一新興商業模式的探索與引爆,埋下了關鍵的伏筆。目前,起點讀書正在使用MiniMax語音大模型的克隆能力,讓用户能夠擁有更多的創作工具,滿足很大一部分想探索個人IP用户的需求。

AI説「人話」

開啟「AI+IP」的聲音經濟新賽道

如果説滿足用户對「好聲音」的追求是上半場的必修課,那麼賦予AI獨特的「人格」則是下半場商業價值增長的「殺手鐗」。

教育行業是這一趨勢的典型代表。傳統模式下,低成本的「因材施教」難以實現。但高途與MiniMax聯手打造的「AI阿祖」——一款以知名演員吳彥祖音色為藍本的AI口語陪練,打破了這一困境。高途方面認為,將AI語音與「人格化、IP化」相結合,是實現教育平權和個性化教學的有效路徑。市場的反響也印證了這一點,「AI阿祖」課程上線后迅速引爆市場,如今累計銷售額已超千萬。

而這場掘金賽的版圖,早已超越了單純的聲音復刻。不久前,全球知名廣告營銷公司S4Capital旗下Monks(摩課士)與MiniMax達成戰略合作,藉助MiniMax先進的多模態大模型技術和通用Agent,曾經耗時數日的提案構思與初稿生成,被壓縮至分秒之間,讓創意實現了「光速」孵化。

Monks大中華區董事總經理Rogier Bikker表示:「我們非常高興與MiniMax達成戰略合作。MiniMax的旗艦視頻模型和海螺AI為我們的客户提供了無與倫比的AI驅動視頻生成質量。」

這一切的背后,是核心技術的持續突破。近日,MiniMax發佈了新一代語音生成模型Speech 2.5,再次刷新了全球語音模型的性能上限。相比此前登頂全球權威榜單的Speech-02,Speech 2.5在多語種表現力、音色復刻精準度及語種覆蓋範圍上實現了三大飛躍覆蓋全球40個語種。

Speech 2.5在多語種表現力、音色復刻精準度及語種覆蓋範圍上實現了三大飛躍

覆蓋全球40個語種

這一技術突破迅速獲得了市場的廣泛認可,不僅國內的高途教育、喜馬拉雅、網易等頭部平臺選擇了MiniMax Speech,在海外,Vapi、Pipecat等Agent平臺以及Hedra、Icon等頭部AI應用也紛紛接入。更具吸引力的是,Speech 2.5在性能大幅提升的同時,延續了極高的性價比,進一步降低了全球企業與創作者使用頂尖AI語音技術的門檻。

在美國,硅谷知名數字人公司Hedra負責人表示,MiniMax Speech-02在東亞語言方面表現尤為突出,雙方合作不僅整合了全球先進技術資源,更具戰略意義的是,它有助於構建一個多元且富有韌性的全球AI技術供應鏈。Hedra與MiniMax的合作依託高質量、多語言AI語音生成技術,特別是在虛擬人、元宇宙等新興的「聲音驅動視覺」應用領域,助力獨立創作者及中小型團隊以更低成本製作專業級音頻內容,從而更好地服務全球用户。

「擬人」到「理解」

AI語音的下一站——「情感智能」

AI語音在「説得像、有特色」方面日臻化境后,業界的目光已投向更具想象力的未來:如何讓AI不僅形似,更能神似,真正「理解」人類的語言與情感?

深圳躍然創新(Haivivi)與MiniMax聯手打造的AI語音掛件玩具「Bubble Pal」,為我們描繪了這一圖景。這款產品可以附着在任意毛絨玩具上,讓玩具「活」起來。它能根據兒童喜愛的卡通IP進行音色復刻,更能根據對話文本中藴含的情緒,如「哭着説」或「開心地宣佈」,演繹出相應的悲傷或喜悦。這標誌着AI語音正從一個「聲音復讀機」,進化為一個能夠初步「共情」的智能夥伴

Haivivi與MiniMax聯手打造的AI語音掛件玩具

讓聲音擁有了更豐富的情緒表達,成為一個可以與孩子「共情」的智能夥伴

「大模型出現之初,我們就期待它與語音技術的深度融合。」躍然創新COO高峰表示,「之前的人工智能音箱無法很好地處理用户的情緒化交互,而新一代AI語音技術讓這成為可能」高峰強調,AI語音為傳統玩具產業帶來了顛覆性的改變:「讓玩具與人有了真正意義上的交流互動,不再是單向的內容輸出。」

展望未來,各行業對AI語音的期待仍在不斷提升。高途認為「具備情緒表達和情感需求的AI將極具競爭力」;躍然創新則致力於將情感理解、長期記憶和個性化衍生能力更深入地融入每一次娛樂交互。

在這場由市場需求與技術創新共同譜寫的「聲音」交響曲中,無論是科技巨頭,還是像MiniMax這樣的新興力量,都在攜手合作夥伴,共同發掘聲音的無盡可能。隨着AI在情感理解、自主交互等方面的持續突破,一個由「好聲音」驅動的,更智能、更具共情力的全新交互時代,正加速到來

/林一

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。