熱門資訊> 正文
2024-11-06 19:51
華夏時報(www.chinatimes.net.cn)記者 盧曉 北京報道
對於大模型的開閉源路線之爭,騰訊最新的選擇是加碼開源。
11月5日,騰訊宣佈最新的MoE模型「混元Large」以及混元3D生成大模型「 Hunyuan3D-1.0」正式開源。騰訊機器學習平臺總監、騰訊混元大語言模型算法負責人康戰輝在接受《華夏時報》等媒體記者採訪時還表示,今天的開源只是萬里長征第一步,未來騰訊混元還會繼續開源不同尺寸、面向不同場景的大模型。
開源與閉源的不同選擇,關係着大模型廠商資金、技術的投入方向,以及外界最關注的大模型商業化落地進展,更重要的是它同時關係着大模型市場未來多年的競爭格局。「去年大模型如火如荼,開源也是百花齊放,今天大家來看, 還是各歸各位。它就是AI時代的一個操作系統,是一個底層基礎設施,不存在入口、流量,我們可以沉下心來長期深耕。」康戰輝當天這樣説道。
持續加碼開源
繼去年5月開源業界首箇中文DIT文生圖模型后,騰訊混元在開源道路上走得更遠。
據騰訊方面介紹,新開源的騰訊混元Large大模型總參數量達398B,激活參數量 52B ,上下文長度達256K,是目前開源領域參數規模最大的MoE模型(Mixture of Experts,即混合專家模型)。今年年初混元大模型在國內率先採用MoE架構,性能比上一代Dense模型提升50%。此外,騰訊混元3D生成大模型則是業界首個同時支持文字、圖像生成3D的開源大模型。
康戰輝當天在接受採訪時表示,騰訊混元現在開源的是參數權重,不涉及到數據和代碼,但接下來會把訓練代碼開源出來,同時會把評估期開源出來,希望向業界展示更多的誠意。他同時認為,大模型開源數據本身意義不大,因為數據規模太大,「現在的大模型普遍訓練的數據都是幾萬億tokens,很難把它維護起來去做進一步的挖掘。」
騰訊混元新開源的大模型,已經率先在騰訊內部業務中使用。
其中,據康戰輝介紹,混元Large模型此前已經在騰訊的AI搜索、AI閲讀上進行試用,此外它在騰訊旗下的金融領域以及協同辦公等業務上也都有所涉及。但他也提到,混元Large模型並不是旗艦模型,「我們的旗艦模型混元 Turbo很大,比較適合複雜業務去應用,但是技術上是同宗同源的。」
據記者瞭解,騰訊2023年初啟動了生成式大語言模型研發,去年9月對外首次亮相,今年1月,騰訊混元在業界首發萬億參數的MoE大模型,今年9月騰訊推出新一代旗艦大語言模型混元Turbo。
對於騰訊混元的開源戰略,康戰輝表示,騰訊在大模型包括開源戰略上實行長期戰略風格,「至少大模型我們做了一年多,沒有着急去開源,很重要的一點就是開源結果是自然而然的發展,我們是閉源做得比較好了之后去做了開源。」他表示,騰訊混元希望通過慢工出細活的方式在開源方面得到用户更多認可。
不同選擇背后
在開閉源路線上,許多大模型廠商已經做出自己的選擇。
以chatGPT掀起AIGC之火的openAI以及國內率先推出大語言模型的百度都是堅定的閉源路線支持者。開源這條道路上,行走的則有Meta、阿里、百川智能、智譜AI等廠商。其中,去年12月阿里雲正式開源了通義千問720億參數的大模型Qwen-72B,今年9月它在雲棲大會上又發佈了通義千問新一代開源模型Qwen2.5,涵蓋多個尺寸大模型。
在大模型廠商做出不同選擇背后,對於開閉源路線孰優孰劣業界早已有所討論。
深度科技研究院院長張孝榮認為,開源模型可以通過免費使用和增值服務等方式實現盈利,閉源模型則需要通過定製化的解決方案和優質的客户服務來獲取商業價值,他對《華夏時報》記者表示,開源和閉源兩條路線的成功與否,最終還要看技術創新和性能、生態系統和社區、商業模式和市場策略以及政策環境和法律風險等決定因素。
盤古智庫高級研究員江瀚則對記者表示,開源路線可以加速大模型的研發迭代速度,並且避免一些知識產權問題,閉源路線則可以更好地保護企業的核心技術和數據資產,同時提供更加專業的技術支持和服務,「這對於一些需要高度定製化的大模型應用的企業來説更加合適。」但他同時也認為,大模型的開源閉源路線都面臨着不同挑戰。
對於開閉源路線的不同定位,康戰輝則認為,頭部企業規模大,很多業務很複雜,可能就是需要閉源才能解決,開源因為面對不同的開發者,尤其有大量的中小企業,包括個人開發者,考慮的受眾和成本需求都不一樣。對於騰訊混元為何率先開源較大參數規模的模型,他則表示,這源於騰訊更多是把自身業務里面應用核心的模型先拿出來開源,后續還會面向端側等不同場景開源出一些更小尺寸的模型。
當天在談到業界在AGI領域的不同路線時,康戰輝還表示,業界對於AGI的長期目標都有思考,但是這個路線怎麼走,會導致各家未來的生態不一樣,「羅馬一直在,路怎麼走是不一樣的。」