繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

思必馳要上市了,但AI語音的護城河沒了

2026-05-29 20:15

5月25日,思必馳向科創板遞交IPO申請。

作為國內最早一批AI公司,思必馳已經走過近二十年。但從業績來看,這家老牌AI公司的增長並不算快。2023年至2025年,公司營收分別為5.39億元、6.01億元和6.88億元,兩年複合增長率僅12.98%

某種程度上説,思必馳正處在一個有些尷尬的時間點。

過去十幾年,語音技術一直是人工智能領域最典型的技術壁壘型賽道。Cerence、SoundHound、思必馳等公司,都受益於這一輪產業紅利。

但大模型出現之后,行業的底層邏輯正在被改寫。OpenAI、谷歌、阿里、字節等巨頭,正在把語音能力變成一種基礎能力

於是一個問題擺在了所有傳統語音公司面前:當語音成為大模型的標配之后,它們還剩下什麼價值?

今天,我們就來聊聊思必馳,以及傳統語音AI公司的未來。

毛利率雖高,但仍然很難賺錢

從收入結構看,思必馳主要有三塊業務:車載業務、智慧辦公和智慧物聯。 

其中,車載業務是公司的基本盤。2025年,該業務收入達到2.76億元,佔總營收的40.08%。

所謂車載業務,本質上是為汽車廠商提供語音交互解決方案。目前,思必馳已經進入比亞迪、奔馳、大眾等多家車企供應鏈,車載語音裝機量市佔率達到22%。

第二塊業務是智慧辦公,包括語音轉寫、會議記錄、自由對話等軟件服務,以及智能吸頂麥、AI辦公本等硬件產品。2023年至2025年,該業務收入從1.8億元增長至2.43億元,是近幾年增長最快的板塊之一。

相比之下,智慧物聯業務則有所收縮。2023年至2025年,該業務收入從1.97億元下降至1.69億元,佔總營收比例也從36.63%下降至24.51%。

從盈利能力看,思必馳的毛利率並不低。

隨着軟件收入佔比提升,公司毛利率從2023年的53.69%提升至2025年的63.24%

但高毛利並沒有轉化成利潤。

過去三年,公司分別虧損1.36億元、1.58億元和0.8億元。同期,期間費用率高達76.3%79.5%68.7%

而這背后,與國內軟件服務行業長期面臨的商業化困境有關。

思必馳的大部分業務仍然帶有較強的項目制屬性。無論是車載語音、智慧辦公還是物聯網方案,每新增一個客户,往往都伴隨着額外的研發、適配、測試、部署和維護成本。

尤其是在車載場景,不同車企、不同車型甚至不同操作系統之間都存在明顯差異,很難像標準化軟件一樣實現大規模複製。

不過這並不是思必馳最大的問題。真正的問題在於,當通用模型的多模態能力足夠強,語音供應商的價值又在哪里?

大模型,正在吃掉AI語音公司

從去年以來,美股軟件股開始暴跌。 

其中,受到衝擊最大的板塊之一,就是傳統語音服務商。

2025年以來,SoundHound AI從年內高點22.17美元回落至約8.56美元,跌幅為61.39%;Cerence從27.5美元高點跌至11.87美元,跌幅約56.84%;聲網從6.99美元高點回落至4.25美元,跌幅接近39.20%

股價下跌背后,一個越來越明顯的共識正在形成:語音技術本身,正在失去獨立價值

過去二十年,語音行業一直建立在一條相對清晰的產業鏈上。

傳統語音AI的標準鏈路是典型的模塊化流水線:ASR(語音轉文字)、 NLU(意圖識別)、Dialog Manager(對話管理)、 TTS(語音合成),以及不同的場景需求。

過去很多語音 AI 公司有價值,是因為每一層都很難。比如,識別口音、抗噪聲、低延迟、喚醒詞、車內聲場、電話線路壓縮音質、多人打斷、語音合成自然度,這些都需要長期工程積累。

思必馳、雲知聲、SoundHound、Cerence,都是這一時代的受益者。

但大模型出現之后,這套邏輯開始發生變化。一方面,模型智能提升,帶來了更強的多模態能力。另一方面,大模型也把這些原本分散的模塊重新整合成了一個統一系統。

從目前來看,大模型的語音能力正在快速追趕甚至超越傳統語音廠商。

過去,語音行業最核心的指標是WER(詞錯誤率),即每100個詞里識別錯多少個詞。WER越低,意味着識別準確率越高。

傳統語音系統在理想環境下通常可以將WER控制在5%以內,但一旦進入車載噪音、電話線路、多人對話等複雜場景,錯誤率往往會明顯上升。

比如,2025年思必馳方案在新聞播報等相對乾淨場景下,WER約為4.8%;而在車載噪音環境下,則上升至12.3%

相比之下,OpenAI開源的Whisper Large-v3不僅在標準測試集上實現了更低的錯誤率,在會議、電話、多人討論等真實場景中,也表現出較強的穩定性。

背后的原因並不複雜。

傳統語音公司長期依賴高質量標註數據。這類數據雖然精準,但獲取成本高、規模有限,很多企業積累十幾年的行業語料,總規模也不過數千到數萬小時。

而大模型可以利用公開視頻、播客、電話錄音、會議記錄、字幕數據以及用户反饋進行訓練。以Whisper為例,其訓練數據規模達到約68萬小時,遠遠超過傳統語音系統。

更大的數據規模,不僅讓模型接觸到了更多真實世界的複雜場景,也讓其具備了更強的上下文理解能力

過去的語音系統更像是在識別關鍵詞,而大模型能夠結合前后語境理解用户真正想表達的內容。即便出現停頓、口誤或表達不完整,也能通過上下文完成糾錯和補全。

換句話説,傳統語音模型是在實驗室里成長起來的,而大模型是在真實世界里成長起來的。

這種變化正在快速傳導到產業層面,並帶來了一個問題:

如果OpenAI、Google、Amazon、字節跳動和阿里都能夠提供低延迟、高準確率的語音交互能力,那麼客户自然會問:為什麼還需要單獨採購一家語音供應商?

某種程度上説,語音能力本身就越來越像一種基礎設施,而不是獨立產品

這樣的趨勢已經開始出現。

2023 年 OpenAI 就與梅賽德斯-奔馳達成合作,將 ChatGPT 接入其 MBUX 車載語音系統。谷歌也開始用Gemini 全面替代原有 Google 助手,並逐步將其內置到 Android 手機、Google TV、智能手錶等終端中。

國內同樣如此。豆包進入特斯拉中國區車載系統,通義千問則逐步接管天貓精靈背后的語音能力,並向智能家居終端延伸。

這些變化也給思必馳帶來了一個更嚴峻的問題:

當語音逐漸從獨立產品變成基礎能力,那傳統語音AI公司還剩下什麼價值?

本文來自微信公眾號「硅基觀察Pro」,作者:元元,36氪經授權發佈。

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。