繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

阿里通義實驗室黃斐:開源進入千問時代,即將發佈的推理模型會更好用

2025-02-21 22:43

轉自:澎湃新聞

阿里通義千問已成全球第一大開源模型系列,將「很快」放出基於最新模型Qwen2.5-Max的推理模型。

2月21日,全球開發者大會(GDC)在上海開幕,在阿里雲魔搭社區主辦的論壇上,據阿里巴巴通義實驗室科學家黃斐介紹,到目前為止,整個通義千問(Qwen)系列模型的下載量達到了1.8億,累計衍生模型總數達到9萬個,衍生模型數已經超越Meta的Llama系列,成爲了全球第一大開源模型系列,並在Hugging Face等第三方榜單和用户反饋上也取得了不錯的成績:「所以現在開始,我們就是一個千問的時代,而不是之前Llama的時代了。」

今年1月底,阿里發佈了AI基礎大模型千問旗艦版Qwen2.5-Max,在多項權威基準評測中處於業界領先水平。黃斐表示,Qwen2.5-Max的性能已經超越了DeepSeek-V3,不過沒有超越作為推理模型的DeepSeek-R1,正如阿里巴巴集團CEO吳泳銘此前所透露的那樣,通義千問正在Qwen2.5-Max的基礎上建立推理模型,「很快就會把這個模型放出來」。

據黃斐介紹,Qwen2.5已經開放了7個不同規模的Dense(稠密)模型,基於傳統的Transformer架構,從規模最小的0.5B到最大的72B,不同大小的模型會有不同的能力和速度,以適配不同場景的需求。同時,在千問系列的迭代中,預訓練數據的大小已經從Qwen1.5-72B時的3T迅速增長到了Qwen2.5-72B的18T,通過規模化法則(Scaling Law)達到了很好的效果。

此外,Qwen2.5還包括3個採用MoE(混合專家模型)架構的API(應用程序編程接口)模型,在Dense模型的基礎上「加寬加大」以減少訓練代價,用户可以通過API去調用,包括Turbo、Plus和Max這三個版本。

除了為用户提供充分的選擇以外,黃斐還揭露了另一個讓千問系列如此受歡迎的「祕訣」,即其支持包括中英文、日語、韓語、西歐各國語言在內的超過29種語言:「千問現在在東南亞國家也用得非常多,在多語言支持上會比其他模型好很多。」

對於未來的發展方向,黃斐談到推理模型、「Smarter Models(更智慧的模型)」和全能模型(Omni Models)。黃斐解釋道,接下來放出的千問推理模型「會比大家現在能用到的更好一些」,而「更智慧的模型」不僅會更聰明,還包括了更快的響應和更低的成本。全能模型則是指能將多模態混合的模型,在輸入輸出方面更加自由。

黃斐認為,在模型之外,AI Agent(智能體)也是一個需要重點關注的領域:「未來的一段時間內,AI Agent一定也是一個比較火熱的話題。它能夠幫助我們解決比較複雜的任務,尤其是結合近期推理模型的發展,我相信最終很多行業都可以運用到這個模型的能力,去完成現在只能由人完成的任務。」

據魔搭社區技術負責人陳穎達在該論壇上的介紹,自2022年11月創建以來,目前,魔搭社區的模型總量已超過4.5萬個,涵蓋LLM、對話、語音、文生圖、圖生視頻、AI作曲等多個領域,魔搭社區已經服務超過1100萬開發者。

在21日的GDC大會上,阿里雲魔搭社區首發階躍星辰最新開源的兩款多模態模型,包括全球參數量最大的開源視頻生成模型Step-Video-T2V,以及業界首款產品級開源語音交互模型Step-Audio。其中,Step-Video-T2V是基於300億參數的文本轉視頻預訓練模型,能夠生成高達 204 幀的視頻;Step-Audio則是業界首個產品級開源語音模型,參數規模達1300多億。目前,這兩款模型均可在魔搭社區下載和體驗。

2月20日晚間,阿里巴巴集團公佈新季度業績,該季度營收2801.5億元,預估2773.7億元,同比增長8%。阿里雲季度營收317.42億元,同比增長13%,公共雲收入持續兩位數增長,AI相關收入連續六個季度三位數增長,調整后EBITA增長33%至31.38億元。

阿里巴巴集團CEO吳泳銘在財報會上表示,面向未來,阿里巴巴將繼續專注三大業務類型:國內外電商業務、AI+雲計算的科技業務、互聯網平臺產品。未來三年,阿里將圍繞AI這個戰略核心,在AI基礎設施、基礎模型平臺及AI原生應用、現有業務的AI轉型等三方面加大投入。其中,集團未來三年在雲和AI的基礎設施投入預計將超越過去十年的總和。

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。