小米開源首個原生端到端語音大模型Xiaomi-MiMo-Audio

2025-09-19 10:03

小米集團-W(01810.HK) 0
谷歌(GOOG) 0
谷歌A(GOOGL) 0

9月19日，小米正式開源首個原生端到端語音模型——Xiaomi-MiMo-Audio，它基於創新預訓練架構和上億小時訓練數據，首次在語音領域實現基於ICL的少樣本泛化，並在預訓練觀察到明顯的「涌現」行為。

據介紹，在通用語音理解及對話等多項標準評測基準中，MiMo-Audio大幅超越了同參數量的開源模型，取得7B最佳性能；在音頻理解基準MMAU的標準測試集上，MiMo-Audio超過Google閉源語音模型Gemini-2.5-Flash；在面向音頻複雜推理的基準Big Bench Audio S2T任務中，MiMo-Audio同樣超越了OpenAI閉源的語音模型GPT-4o-Audio-Preview。

小米開源首個原生端到端語音大模型Xiaomi-MiMo-Audio

推薦文章

美股機會日報 | 凌晨3點！美聯儲將公佈1月貨幣政策會議紀要，納指期貨漲近0.5%；13F大曝光！巴菲特連續三季減持蘋果

美股機會日報 | 阿里發佈千問3.5！性能媲美Gemini 3；馬斯克稱Cybercab將於4月開始生產

港股周報 | 中國大模型「春節檔」打響！智譜周漲超138%；鉅虧超230億！美團周內重挫超10%

一周財經日曆 | 港美股迎「春節+總統日」雙假期！萬億零售巨頭沃爾瑪將發財報

從軟件到房地產，美國多板塊陷入AI恐慌拋售潮

Meta計劃為智能眼鏡添加人臉識別技術

危機四伏，市場卻似乎毫不在意

財報前瞻 | 英偉達Q4財報放榜在即！高盛、瑞銀預計將大超預期，兩大關鍵催化將帶來意外驚喜？