热门资讯> 正文
2025-08-08 16:38
2025年,大模型领域无疑是行业焦点,而AI语音赛道更是热闹非凡,各路资本纷纷争抢入场券。据不完全统计,仅上半年就有4家初创公司获得超过3亿美元融资。
今年6月,Wispr Flow完成3000万美元A轮融资;3月,Cartesia完成6400万美元融资,Hume AI完成5000万美元融资;1月份,ElevenLabs宣布完成1.8亿美元C轮融资等。
除了资本加持,今年以来Amazon、OpenAI和Google等科技巨头纷纷下场发布自己的语音大模型或语音产品。今年3月,OpenAI一口气发布三款语音大模型:GPT-4o Transcribe和GPT-4o MiniTranscribe,以及GPT-4o MiniTTS;4月,亚马逊推出AI语音模型Nova Sonic;Google也在Veo3中整合了一个强大的语音模型,Siri也被曝出或将被ChatGPT或Claude等大模型接管。
跑在国际大模型前列的“优秀课代表”MiniMax,也在AI语音赛道发起了一次技术迭代脉冲波。8月7日,MiniMax正式发布新一代语音生成模型Speech 2.5,相比5月发布的Speech 02,Speech 2.5有三大新突破:多语种表现力更强、音色复刻更像、40个语种覆盖更广。
然而,资本与技术仅是一方面,另一方面,能否在可商业化的场景中实现产品的真正落地,才是决定胜负的关键。恰恰,在AI语音商业化落地方面,MiniMax也同样走在了前面。
MiniMax为市场带来了新突破
曾几何时,AI语音的核心使命仅仅是解决“从无到有”的发声问题。以有声阅读为例,行业早期的普遍做法是引入传统TTS(文本转语音)技术,以满足用户从看小说到听小说的基础需求。但彼时的AI语音,往往仅限于单调的男女声切换,音色机械呆板,没有灵魂。
但市场需求指针早已悄然转向,用户不再满足于“听个响儿”。市场以强烈的需求,倒逼着语音大模型技术来了一场“技术进化”。
2023年,起点读书与MiniMax合作共建,将MiniMax语音大模型能力接入有声书场景,打造AI朗读角色“说书先生”和“狐狸小姐”,在自然度、还原度、保真度上相较传统语音方案拥有跨时代的优势。有了MiniMax语音大模型能力的“神助攻”,让起点读书的有声书体验有了一种脱胎换骨的感觉,受到了用户的广泛好评。
MiniMax合作共建的AI朗读角色让用户产生了极强的黏性
如今,起点读书的用户可以随心所欲地在“说书先生”的沉稳磁性、“邻家少女”的活泼可人、“狐狸小姐”的聪慧灵动,或是“温柔校花”的甜美清澈等一系列极具个性化的AI音色中自由切换。这不仅仅是音色的丰富,更是AI语音从冰冷的“朗读工具”,向能够塑造角色、传递情感的“表达媒介”的华丽转身。
“在与MiniMax合作的这两年期间,我们逐渐发现用户对于语音拥有极强的黏性,一个新的音色得到用户认可和喜爱后非常难替换。”起点读书产品负责人常馨月说,“这导致后来每次对于音色的迭代都需要非常小心。”
这无疑印证了优质AI声音的独特魅力。这不仅直接提升了用户体验,更为“声音IP”这一新兴商业模式的探索与引爆,埋下了关键的伏笔。目前,起点读书正在使用MiniMax语音大模型的克隆能力,让用户能够拥有更多的创作工具,满足很大一部分想探索个人IP用户的需求。
开启“AI+IP”的声音经济新赛道
如果说满足用户对“好声音”的追求是上半场的必修课,那么赋予AI独特的“人格”则是下半场商业价值增长的“杀手锏”。
教育行业是这一趋势的典型代表。传统模式下,低成本的“因材施教”难以实现。但高途与MiniMax联手打造的“AI阿祖”——一款以知名演员吴彦祖音色为蓝本的AI口语陪练,打破了这一困境。高途方面认为,将AI语音与“人格化、IP化”相结合,是实现教育平权和个性化教学的有效路径。市场的反响也印证了这一点,“AI阿祖”课程上线后迅速引爆市场,如今累计销售额已超千万。
而这场掘金赛的版图,早已超越了单纯的声音复刻。不久前,全球知名广告营销公司S4Capital旗下Monks(摩课士)与MiniMax达成战略合作,借助MiniMax先进的多模态大模型技术和通用Agent,曾经耗时数日的提案构思与初稿生成,被压缩至分秒之间,让创意实现了“光速”孵化。
Monks大中华区董事总经理Rogier Bikker表示:“我们非常高兴与MiniMax达成战略合作。MiniMax的旗舰视频模型和海螺AI为我们的客户提供了无与伦比的AI驱动视频生成质量。”
这一切的背后,是核心技术的持续突破。近日,MiniMax又发布了新一代语音生成模型Speech 2.5,再次刷新了全球语音模型的性能上限。相比此前登顶全球权威榜单的Speech-02,Speech 2.5在多语种表现力、音色复刻精准度及语种覆盖范围上实现了三大飞跃,覆盖全球40个语种。
,覆盖全球40个语种
这一技术突破迅速获得了市场的广泛认可,不仅国内的高途教育、喜马拉雅、网易等头部平台选择了MiniMax Speech,在海外,Vapi、Pipecat等Agent平台以及Hedra、Icon等头部AI应用也纷纷接入。更具吸引力的是,Speech 2.5在性能大幅提升的同时,延续了极高的性价比,进一步降低了全球企业与创作者使用顶尖AI语音技术的门槛。
在美国,硅谷知名数字人公司Hedra的负责人表示,MiniMax Speech-02在东亚语言方面表现尤为突出,双方合作不仅整合了全球先进技术资源,更具战略意义的是,它有助于构建一个多元且富有韧性的全球AI技术供应链。Hedra与MiniMax的合作依托高质量、多语言AI语音生成技术,特别是在虚拟人、元宇宙等新兴的“声音驱动视觉”应用领域,助力独立创作者及中小型团队以更低成本制作专业级音频内容,从而更好地服务全球用户。
AI语音的下一站——“情感智能”
当AI语音在“说得像、有特色”方面日臻化境后,业界的目光已投向更具想象力的未来:如何让AI不仅形似,更能神似,真正“理解”人类的语言与情感?
深圳跃然创新(Haivivi)与MiniMax联手打造的AI语音挂件玩具“Bubble Pal”,为我们描绘了这一图景。这款产品可以附着在任意毛绒玩具上,让玩具“活”起来。它能根据儿童喜爱的卡通IP进行音色复刻,更能根据对话文本中蕴含的情绪,如“哭着说”或“开心地宣布”,演绎出相应的悲伤或喜悦。这标志着AI语音正从一个“声音复读机”,进化为一个能够初步“共情”的智能伙伴。
让声音拥有了更丰富的情绪表达,成为一个可以与孩子“共情”的智能伙伴
“大模型出现之初,我们就期待它与语音技术的深度融合。”跃然创新COO高峰表示,“之前的人工智能音箱无法很好地处理用户的情绪化交互,而新一代AI语音技术让这成为可能。”高峰强调,AI语音为传统玩具产业带来了颠覆性的改变:“让玩具与人有了真正意义上的交流互动,不再是单向的内容输出。”
展望未来,各行业对AI语音的期待仍在不断提升。高途认为,“具备情绪表达和情感需求的AI将极具竞争力”;跃然创新则致力于将情感理解、长期记忆和个性化衍生能力更深入地融入每一次娱乐交互。
在这场由市场需求与技术创新共同谱写的“声音”交响曲中,无论是科技巨头,还是像MiniMax这样的新兴力量,都在携手合作伙伴,共同发掘声音的无尽可能。随着AI在情感理解、自主交互等方面的持续突破,一个由“好声音”驱动的,更智能、更具共情力的全新交互时代,正加速到来。
文/林一