AI语音赛道MiniMax再爆发，一场技术与市场的双重角逐

2025-08-08 16:38

2025年，大模型领域无疑是行业焦点，而AI语音赛道更是热闹非凡，各路资本纷纷争抢入场券。据不完全统计，仅上半年就有4家初创公司获得超过3亿美元融资。

今年6月，Wispr Flow完成3000万美元A轮融资；3月，Cartesia完成6400万美元融资，Hume AI完成5000万美元融资；1月份，ElevenLabs宣布完成1.8亿美元C轮融资等。

除了资本加持，今年以来Amazon、OpenAI和Google等科技巨头纷纷下场发布自己的语音大模型或语音产品。今年3月，OpenAI一口气发布三款语音大模型：GPT-4o Transcribe和GPT-4o MiniTranscribe，以及GPT-4o MiniTTS；4月，亚马逊推出AI语音模型Nova Sonic；Google也在Veo3中整合了一个强大的语音模型，Siri也被曝出或将被ChatGPT或Claude等大模型接管。

跑在国际大模型前列的“优秀课代表”MiniMax，也在AI语音赛道发起了一次技术迭代脉冲波。8月7日，MiniMax正式发布新一代语音生成模型Speech 2.5，相比5月发布的Speech 02，Speech 2.5有三大新突破：多语种表现力更强、音色复刻更像、40个语种覆盖更广。

然而，资本与技术仅是一方面，另一方面，能否在可商业化的场景中实现产品的真正落地，才是决定胜负的关键。恰恰，在AI语音商业化落地方面，MiniMax也同样走在了前面。

从“听个响儿”到听得好

MiniMax为市场带来了新突破

曾几何时，AI语音的核心使命仅仅是解决“从无到有”的发声问题。以有声阅读为例，行业早期的普遍做法是引入传统TTS（文本转语音）技术，以满足用户从看小说到听小说的基础需求。但彼时的AI语音，往往仅限于单调的男女声切换，音色机械呆板，没有灵魂。

但市场需求指针早已悄然转向，用户不再满足于“听个响儿”。市场以强烈的需求，倒逼着语音大模型技术来了一场“技术进化”。

2023年，起点读书与MiniMax合作共建，将MiniMax语音大模型能力接入有声书场景，打造AI朗读角色“说书先生”和“狐狸小姐”，在自然度、还原度、保真度上相较传统语音方案拥有跨时代的优势。有了MiniMax语音大模型能力的“神助攻”，让起点读书的有声书体验有了一种脱胎换骨的感觉，受到了用户的广泛好评。

MiniMax合作共建的AI朗读角色让用户产生了极强的黏性

如今，起点读书的用户可以随心所欲地在“说书先生”的沉稳磁性、“邻家少女”的活泼可人、“狐狸小姐”的聪慧灵动，或是“温柔校花”的甜美清澈等一系列极具个性化的AI音色中自由切换。这不仅仅是音色的丰富，更是AI语音从冰冷的“朗读工具”，向能够塑造角色、传递情感的“表达媒介”的华丽转身。

“在与MiniMax合作的这两年期间，我们逐渐发现用户对于语音拥有极强的黏性，一个新的音色得到用户认可和喜爱后非常难替换。”起点读书产品负责人常馨月说，“这导致后来每次对于音色的迭代都需要非常小心。”

这无疑印证了优质AI声音的独特魅力。这不仅直接提升了用户体验，更为“声音IP”这一新兴商业模式的探索与引爆，埋下了关键的伏笔。目前，起点读书正在使用MiniMax语音大模型的克隆能力，让用户能够拥有更多的创作工具，满足很大一部分想探索个人IP用户的需求。

让AI说“人话”

开启“AI+IP”的声音经济新赛道

如果说满足用户对“好声音”的追求是上半场的必修课，那么赋予AI独特的“人格”则是下半场商业价值增长的“杀手锏”。

教育行业是这一趋势的典型代表。传统模式下，低成本的“因材施教”难以实现。但高途与MiniMax联手打造的“AI阿祖”——一款以知名演员吴彦祖音色为蓝本的AI口语陪练，打破了这一困境。高途方面认为，将AI语音与“人格化、IP化”相结合，是实现教育平权和个性化教学的有效路径。市场的反响也印证了这一点，“AI阿祖”课程上线后迅速引爆市场，如今累计销售额已超千万。

而这场掘金赛的版图，早已超越了单纯的声音复刻。不久前，全球知名广告营销公司S4Capital旗下Monks（摩课士）与MiniMax达成战略合作，借助MiniMax先进的多模态大模型技术和通用Agent，曾经耗时数日的提案构思与初稿生成，被压缩至分秒之间，让创意实现了“光速”孵化。

Monks大中华区董事总经理Rogier Bikker表示：“我们非常高兴与MiniMax达成战略合作。MiniMax的旗舰视频模型和海螺AI为我们的客户提供了无与伦比的AI驱动视频生成质量。”

这一切的背后，是核心技术的持续突破。近日，MiniMax又发布了新一代语音生成模型Speech 2.5，再次刷新了全球语音模型的性能上限。相比此前登顶全球权威榜单的Speech-02，Speech 2.5在多语种表现力、音色复刻精准度及语种覆盖范围上实现了三大飞跃，覆盖全球40个语种。

，覆盖全球40个语种

这一技术突破迅速获得了市场的广泛认可，不仅国内的高途教育、喜马拉雅、网易等头部平台选择了MiniMax Speech，在海外，Vapi、Pipecat等Agent平台以及Hedra、Icon等头部AI应用也纷纷接入。更具吸引力的是，Speech 2.5在性能大幅提升的同时，延续了极高的性价比，进一步降低了全球企业与创作者使用顶尖AI语音技术的门槛。

在美国，硅谷知名数字人公司Hedra的负责人表示，MiniMax Speech-02在东亚语言方面表现尤为突出，双方合作不仅整合了全球先进技术资源，更具战略意义的是，它有助于构建一个多元且富有韧性的全球AI技术供应链。Hedra与MiniMax的合作依托高质量、多语言AI语音生成技术，特别是在虚拟人、元宇宙等新兴的“声音驱动视觉”应用领域，助力独立创作者及中小型团队以更低成本制作专业级音频内容，从而更好地服务全球用户。

从 “拟人”到“理解”

AI语音的下一站——“情感智能”

当AI语音在“说得像、有特色”方面日臻化境后，业界的目光已投向更具想象力的未来：如何让AI不仅形似，更能神似，真正“理解”人类的语言与情感？

深圳跃然创新（Haivivi）与MiniMax联手打造的AI语音挂件玩具“Bubble Pal”，为我们描绘了这一图景。这款产品可以附着在任意毛绒玩具上，让玩具“活”起来。它能根据儿童喜爱的卡通IP进行音色复刻，更能根据对话文本中蕴含的情绪，如“哭着说”或“开心地宣布”，演绎出相应的悲伤或喜悦。这标志着AI语音正从一个“声音复读机”，进化为一个能够初步“共情”的智能伙伴。

让声音拥有了更丰富的情绪表达，成为一个可以与孩子“共情”的智能伙伴

“大模型出现之初，我们就期待它与语音技术的深度融合。”跃然创新COO高峰表示，“之前的人工智能音箱无法很好地处理用户的情绪化交互，而新一代AI语音技术让这成为可能。”高峰强调，AI语音为传统玩具产业带来了颠覆性的改变：“让玩具与人有了真正意义上的交流互动，不再是单向的内容输出。”

展望未来，各行业对AI语音的期待仍在不断提升。高途认为，“具备情绪表达和情感需求的AI将极具竞争力”；跃然创新则致力于将情感理解、长期记忆和个性化衍生能力更深入地融入每一次娱乐交互。

在这场由市场需求与技术创新共同谱写的“声音”交响曲中，无论是科技巨头，还是像MiniMax这样的新兴力量，都在携手合作伙伴，共同发掘声音的无尽可能。随着AI在情感理解、自主交互等方面的持续突破，一个由“好声音”驱动的，更智能、更具共情力的全新交互时代，正加速到来。

文/林一

AI语音赛道MiniMax再爆发，一场技术与市场的双重角逐

推荐文章

一周IPO丨中慧生物暗盘飙涨162%，中签一手赚超4000港元；“减肥药概念”银诺医药招股中

一周财经日历丨重磅财报周！腾讯京东季报轮番登场；美国7月CPI/PPI携手“恐怖数据”来袭

机器人投资风口来袭！世界级盛会催化下，哪些机会不容错过？

美股机会日报丨降息预期骤变！小摩称美联储年内或降息三次；SoundHound飙涨超27%

摩根大通预计美联储将在9月会议上降息25基点，接下来还会连续三次降息

英特尔首席执行官陈立武发文：关于过往职务信息有很多错误 董事会全力支持公司转型工作

美国养老金投资或迎巨变，特朗普颁令为401(k)纳入加密货币等资产铺路

外盘头条：OpenAI发布最强GPT-5；特朗普颁令允许养老金投资另类资产

英特尔首席执行官陈立武发文：关于过往职务信息有很多错误董事会全力支持公司转型工作