騰訊開源「最大」大模型：如果你也相信MoE，那咱們就是好朋友

2024-11-06 10:36

騰訊在AI上信什麼？

一個是開源，一個是MoE （混合專家模型）。

開源好理解，在大模型火熱之后，加入戰局的騰訊已經按照它自己的節奏開源了一系列模型，包括混元文生圖模型等。

某種程度上，ChatGPT是一個意外的發佈，意味着所有人在大模型上都「落后」了，開源是追趕的一種方式，也是快速建立存在感吸引更多社區參與者來共建的方式。

而騰訊對MoE的篤信，此前則並沒太被外界意識到。事實上，這家從廣告業務到推薦功能等，一直在生產環境里大規模使用着AI算法的公司，在技術上對MoE的篤信到了某種「信仰」的程度。

許多細節此前並不太為人所知。比如，在生成式AI大模型火熱之前，騰訊的許多模型就在使用MoE架構，包括2021年騰訊訓練的T5模型，整個模型參數已經很大，不過與今天的MoE相比，每個專家的參數量較小。而2024年11月5日，騰訊再次開源了最新的MoE模型Hunyuan-Large（混元Large），一個至今全行業公開發布出來的最大參數的MoE架構的模型。

據騰訊介紹，騰訊混元Large模型總參數量 389B，激活參數量 52B ，上下文長度高達256K，公開測評結果顯示，騰訊混元Large 在CMMLU、MMLU、CEval、MATH等多學科綜合評測集以及中英文NLP任務、代碼和數學等9個領域取得領先，超過Llama3.1、Mixtral等一流的開源大模型。同時，它已經在騰訊業務場景中落地應用，經過實踐的檢驗，是面向實用場景的應用級大模型。

MoE是一種相對於稠密（dense）模型架構的設計。簡單理解，稠密模型就是通過大力出奇跡訓練出一個全知全能的神，來解決所有問題，它也是今天大模型火熱背后，大家對大模型機制的朴素直覺的理解。而MoE放棄了造一個單獨唯一的神，轉而由多個各有所長分工明確的專家組來解決問題，也就是所謂的專家們的混合（Mixture of Experts）。

從這個簡單的描述可以看出，MoE似乎更符合今天訓練遇到規模化瓶頸時的技術選擇。不過，在今天的開源模型領域，最強模型Llama 3在當時發佈時最讓業內驚訝的技術選擇之一，就是沒有使用MoE模型架構。這也讓很多跟隨llama體系的開源模型也繼續堅持着稠密模型的路線。而現在騰訊顯然不想跟着llama跑了。

在各種實驗里尋找MoE的Scaling Law

在MoE架構的開源模型里，最吸引開源社區注意的是Mistral。這家公司成立於2023年5月，之后開始訓練MoE架構的模型並提供給開源社區。據騰訊介紹，MoE架構的模型在2021年已經成為騰訊訓練大模型的選擇。

在大模型因ChatGPT火熱之后，騰訊並沒有第一時間公佈它的技術路線和模型，而之后，在2024年3月發佈財報的電話會上，騰訊高管第一次透露了混元已經是一個萬億級別參數的MOE架構模型，而在那個時間點前后，業內也開始廣泛達成共識，認為OpenAI使用的也是MoE架構。

在混元Large的發佈會上，騰訊機器學習平臺總監，騰訊混元大語言模型算法負責人康戰輝表示，如果scaling law的本質是追求模型更大的規模以實現更強的能力，那麼MoE是必定會走向的路線。他形容騰訊這麼多年已經在MoE路線上摸索了很久。與過往大家圍繞稠密模型建立的scaling law不同，因為模型架構上的改變，MoE模型也有自己的Scaling Law。

「如果你只是想把模型撐的非常大，那麼專家你可以8個，16個，32個甚至64個都可以。」康戰輝説。「但如何找到最好的平衡配方，是需要很多的理解和積累的過程。我們從21年一路走來花了很多精力就是在理解這件事情。」

「MoE模型的變量更多，我們需要找到MoE自己的Scaling Law。」他説。

騰訊為此做了大量的實驗，具體方法是，設置了一套自己的中小模型簇，做大量的各種模型組的實驗，而不是幾個模型的實驗。「我們堅持用一種實驗機制來保障它。」

而這次開源的過程，騰訊也把技術「祕方」做了總結。

它包括幾個方面：

共享專家路由策略：混元Large有一個共享專家，也就是負責處理共享的通用能力和知識的專家模型，和16個特殊專家，負責處理任務相關的特殊能力，這些專家模型動態激活，利用稀疏的神經網絡來高效率的進行推理。而訓練這些不同的專家時，會遇到數據負載的挑戰，在回收路由策略上，混元通過大量實驗找到有效激活每個專家的方式，使其保持相對均衡的負載，根據Batch size 縮放原則，匹配不同的學習率，充分利用訓練數據，保證模型的訓練穩定性和收斂速度。

高質量合成數據：今天自然數據開始出現瓶頸，根據Gartner報告預測，到2030年，合成數據在AI模型中的使用將完全超過真實數據。但合成數據目前的問題是，它的質量參差不齊，缺乏多樣性，部分能力/任務相關數據稀缺。騰訊的方法是在天然文本語料庫的基礎上，利用混元內部系列大語言模型構建大量的高質量、多樣性、高難度合成數據，並通過模型驅動的自動化方法評價、篩選和持續維護數據質量，形成一條完整數據辣取、篩選、優化、質檢和合成的自動化數據鏈路。目前，它在數學和代碼領域獲得了超過10%的提升。

長上下文處理能力：預訓練模型支持高達256K的文本序列，Instruct模型支持128K的文本序列，顯著提升了長上下文任務的處理能力。騰訊還為此做了一個更接近真實世界的評測集，名字叫做「企鵝卷軸」，也即將開源。

此外，在推理加速上，騰訊也使用了KV緩存壓縮的技術：使用 Grouped-Query Attention （GQA）和 Cross-Layer Attention （CLA）兩種KV Cache 壓縮策略，從head/layer兩個維度聯合壓縮KV cache。同時再搭配上量化技術，提升壓縮比。據騰訊數據，通過GQA+CLA的引入，最終將模型的KVCache壓縮為MHA的5%，大幅提升推理性能。

同時，在預訓練之外，后訓練階段，騰訊在對齊上也做了很多技術優化。

據騰訊介紹，今天SFT通用領域繁多，數學、代碼高質量指令數據獲取困難，業界廣泛採用的離線DPO，強化策略效果上限不高，泛化性弱等挑戰，騰訊混元Large模型分門別類提升數學、邏輯推理、代碼等能力，另外在一階段離線DPO的基礎上引入了二階段在線強化策略。

目前混元large已經在HuggingFace上線，也同步上架了騰訊雲 TI平臺。

壯大MoE的朋友圈

Llama3 系列當初之所以沒有采用MoE，在它的技術報告里給出的理由，主要指向了模型訓練的穩定性。而這種穩定性不僅與模型訓練的方法成熟度相關，也和整個訓練生態對MoE架構的支持有關。比如，在Llama背后，支持它訓練的Meta的計算集羣里，像是基於RoCE的集羣其實對MoE這類架構的運作方式有一定的適配問題，會帶來控制上的問題從而導致效率的降低。

而據騰訊介紹，它自己的底層訓練架構就是為支持MoE設計的。而且，這一次開源過程里，騰訊不只開源了模型，還把配套設施也提供了出來。

據騰訊介紹，本次開源提供了配套Hunyuan-Large模型的 vLLM-backend 推理框架。「我們在vLLM開源框架的基礎上適配了Hunyuan-Large模型，新增的CLA結構可以很大程度節約顯存(KV-Cache部分節省50%)，保障超長文本場景。此外通過FP8的量化優化，相比FP16/BF16常規量化，在最大限度保障精度的條件下，節省50%顯存，吞吐提升70%。」

此外，Hunyuan-Large也已經支持huggingface格式，支持用户採用hf-deepspeed框架進行模型精調。「我們也支持利用flash-attn進行訓練加速，為此，我們把相關的訓練腳本和模型實現也開放給到社區，方便研發者在此基礎上進行后續的模型訓練和精調的操作。」

在此次混元Large背后，它的訓練和推理均基於騰訊Angel機器學習平臺。爲了使得混元大模型具備更好的訓練和推理性能，騰訊也將陸續開源混元AnglePTM和AngeIHCF等大模型工程框架。

這是要通過全套的服務來壯大MoE的朋友圈。

其實，這次混元large的開源，最有意思的並不只是模型本身，而是對於一向低調的騰訊，難得展示了它在大模型這個技術發展上內部所確定的理念和方向。

首先在技術路線選擇上，面對MoE尚未有充分的生態支持，Llama路線依然佔據主流，並且追隨它是「出成績」更直接的選擇時，它依然認定一直堅持的路線是對的。如果相信有一天大家都要走向MoE，那麼更早的通過開源和生態建設來讓開發者聚攏在它這里就是個正確的決定。

這讓它看起來有點像堅持MoE版的Meta——實打實的把大量資源用在了最強的開源模型上。甚至它比Meta更篤信它所開源的技術方案——Meta的Llama在它的AI掌舵人Yann LeCun 眼里，看起來是個「過渡方案」，他領導的研究部門FAIR要追求的世界模型，甚至被形容為是和開源Llama完全不同的方向。而騰訊正在開源的，自己業務里使用的，以及長期投入的方案都是一套。

「我們內部説，我們不急於爲了開源而開源，在內部業務打磨好后再開源。」康戰輝説。同一天，騰訊還開源了混元3D生成大模型，這是業界首個同時支持文字、圖像生成3D的開源大模型。

「要開就要有誠意，它必須是與我們自己用的模型同宗同源的。接下來我們還會繼續基於MoE架構發佈更多的模型。」

騰訊開源「最大」大模型：如果你也相信MoE，那咱們就是好朋友

在各種實驗里尋找MoE的Scaling Law

壯大MoE的朋友圈

推薦文章

一圖看懂 | 淨利潤大幅增長！阿里Q2淨利同比增76%至424億元；閃購業務引流效果顯著

一周財經日曆 | 大小非農數據來襲，能否決定9月降息計劃？蔚來、博通財報壓軸登場

一周IPO丨打新「賺錢效應」爆表！佳鑫國際首日飆漲177%；大行科工、勁方醫藥或即將啟動招股

【A+H】禾賽科技回港上市獲備案 面臨募資與定價雙重考驗

特朗普試圖解僱美聯儲理事庫克，美股為何無動於衷？一文解讀

自動駕駛成負面資產！調查顯示：FSD降低消費者購買特斯拉意願

還能領先多久？從4月美股觸底算起：亞洲科技股持續跑贏納斯達克100

美股機會日報 | 史上最快破萬億，美企正以創紀錄速度回購！績優股走強，Snowflake績后大漲超14%

【A+H】禾賽科技回港上市獲備案面臨募資與定價雙重考驗