繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

微軟自研AI「三件套」落地 豪言到2027年自主打造大型尖端模型

2026-04-03 01:08

財聯社4月3日訊(編輯 史正丞)美國科技公司微軟周四宣佈,3款內部開發的AI模型正式推出廣泛商用,展示該公司試圖擺脫依賴長期合作伙伴OpenAI的努力。

具體來説,微軟AI超級智能團隊開發的MAI-Transcribe-1、MAI-Voice-1和MAI-Image-2三款模型,涵蓋了企業AI中最具商業價值的3項能力——語音轉錄、語音生成和圖像創建

image

(微軟首席執行官納德拉宣佈這項更新,來源:X)

微軟表示,MAI-Transcribe-1是市面上最常用轉錄模型中準確率最高的。在涵蓋所有語言的測試中,其平均錯誤率為3.9%。而OpenAI的GPT-Transcribe錯誤率為4.2%,Gemini 3.1 Flash為4.9%。

MAI-Voice-1語音生成模型據稱可以在「單塊GPU」上實現不到一秒內生成60秒音頻,並能在長內容生成中保持語音的一致性。

MAI-Image-2最早發佈於3月19日,周四也跟着另外兩款模型一同實現廣泛商用。目前該模型在「大模型競技場」的文生圖排名中位居第三,僅次於谷歌爆品Nano Banana 2和OpenAI的GPT-Image 1.5。

橫向對比價格,MAI-Image-2的文本輸入起步價格為每100萬詞元(tokens)5美元,圖像輸出為每100萬詞元33美元起。谷歌的Gemini 3 Pro圖像生成模型為每100萬詞元120美元,Gemini 3.1 Flash圖像為每100萬詞元60美元。

目標:自主開發世界前沿大模型

微軟的最新舉措源自於去年10月,當時公司與OpenAI重組了合作關係,允許微軟單獨或與第三方合作伙伴一起追求通用人工智能的權利。此前的協議雖然允許微軟使用OpenAI知識產權,但同時也禁止其開發競爭性的人工智能系統。

微軟AI首席執行官穆斯塔法·蘇萊曼公開表示,該團隊到2027年的目標是「能夠真正達到最先進水平」,涵蓋能夠響應或生成文本、圖像和音頻的模型。

蘇萊曼介紹稱,公司正在構建訓練模型所需的算力,並從去年10月開始部署英偉達GB200芯片。

他説:「從那時開始,我們將在接下來的大約12到18個月內逐步提升,達到前沿規模的計算能力。」

作為谷歌DeepMind的聯合創始人,蘇萊曼於2024年加入微軟,負責將人工智能融入其消費產品。去年10月微軟與OpenAI敲定協議后,蘇萊曼於去年11月全職接手領導微軟AI超級智能團隊。在上個月的內部重組中,蘇萊曼的職責被縮小為模型開發,前Snap高管雅各布·安德里歐接手微軟面向企業和個人用戶的Copilot助手產品。

蘇萊曼對媒體表示:「我們想強調的是,在未來三到五年推進自身最先進AI能力、實現長期自主這一戰略使命的重要性。」他同時補充稱,公司也會繼續託管其他公司開發的模型。

從長期角度來看,微軟對OpenAI的知識產權的深度訪問權限將在2032年到期,因此發展自研大模型也是重要的風險對衝。

剛剛起步的微軟自研模型業務也存在相當多的短板,足以見得蘇萊曼的團隊未來一年會有很多工作需要完成。

舉例而言,MAI-Image-2目前僅支持1:1縱橫比,不提供橫向或豎向選項,其他AI應用中常見的圖像到圖像編輯、參考圖像支持均不存在。MAI-Transcribe-1無法區分對話中的不同發言者,也不支持上下文偏置和流式傳輸,微軟表示這三項功能都在開發中。

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。