熱門資訊> 正文
2024-12-21 08:04
實現大模型的能力密度約每3.3個月翻一倍。
作者|王藝
編輯|趙健
今年下半年,關於大模型領域的公共信仰Scaling Law是否「撞牆」的討論絡繹不絕。但不論支持還是反對,都需要意識到的一點是,Scaling Law並非衡量大模型能力的唯一視角。
近期,面壁智能的劉知遠教授團隊就在2024中國人工智能大會(CCAI 2024)上提出了大模型的「密度定律(Densing Law)」——模型能力隨時間呈指數級增長,2023年以來能力密度約每3.3個月翻一倍。也就是説,每過100天,我們就可以用一半的參數量實現當前最優模型相當的性能。
會議期間,面壁智能聯合創始人、首席科學家、清華大學計算機系副教授劉知遠作了題為《大模型的知識密度定律,推論與預測》的主題分享。「甲子光年」在會后第一時間採訪到了劉知遠教授。
在採訪中,劉知遠透露了幾個關鍵信息:
根據Densing Law,面壁智能大概會在明年或后年,在8B或4B的模型上實現GPT-4和GPT-4o同樣的能力;
未來最前沿的大模型技術一定首先發生在端側;
隨着芯片電路密度(遵循摩爾定律)和模型能力密度(遵循密度定律)持續增強,未來的大模型會像現在的CPU一樣無處不在。
以下是劉知遠教授的報告內容,「甲子光年」整理后發佈。
1.什麼是Densing Law?
首先,大模型技術本身代表着人工智能一個非常重要的成熟階段。與歷史上的符號智能和專用智能相比,大模型通過通用的Transformer架構和序列預測的學習方法,實現了從未標註的數據中學習知識的能力。這種技術方案標誌着邁向更加通用智能的關鍵一步。因此,在這種技術框架下,結合大數據和強大算力,能夠在一個模型里面持續積累知識,從而促進形成所謂的「智能涌現」。
過去五年,我們見證了一個非常重要的大模型的發展趨勢。隨着模型的參數和訓練規模不斷增大,模型的智能能力也越來越強。這個現象就是Scaling Law。
過去五年中,模型參數實現了從幾千萬到幾千億的巨大增長,模型的發展也從BERT、GPT-1到如今的GPT-3.5、ChatGPT、GPT-4,以及未來可能出現的GPT-5等一系列升級。
然而,到了2024年,一個新的問題出現——Scaling Law的可持續發展路徑。這兩天Ilya和許多學者、從業者都提到過,現在可用於訓練模型的數據日益枯竭,公開可獲取的數據幾乎已被用盡。而且,隨着模型尺寸的不斷增大,計算資源的可持續發展成為一個新的問題。
在過去的五年里,模型的參數規模增長了幾千倍。假設將現有的幾千億參數模型的規模增長几百倍,情況會變得非常嚴峻。如果要訓練一個100萬億參數的模型,就需要400萬張H100顯卡,這相當於英偉達2023年全年的生產總量的幾倍。僅僅是訓練一個模型所需的計算資源就如此龐大,那是否只能依賴幾家大公司來承擔這些高昂的成本?即便這些模型訓練完成,全球有多少人能使用得起這些資源呢?這正是Scaling Law的可持續性問題。
爲了應對這一挑戰,需要思考未來AI發展的路徑。面壁認為,過去幾十年的信息革命提供了一個重要的啟示:1945年,全球第一臺電子計算機的體積為2.7噸,需要一間大房間才能放得下,而如今,一部智能手機的算力已經遠超當時的計算機。計算機80年的發展歷程見證了信息革命的到來。
信息革命的一個重要驅動力就是摩爾定律。摩爾定律指出,通過不斷改進芯片製造工藝、提高芯片的製程,可以有效提升芯片上電路的密度。摩爾定律最早由戈登·摩爾在1956年提出,內容是每兩年芯片上單位面積的電路密度會翻一番。與Scaling Law不同,摩爾定律的核心是追求芯片電路的密度,而不僅僅是規模。正是這樣的一個不同的視角,引領了整個芯片行業的發展,進而實現了計算設備的小型化、普及化,最終推動了全球信息革命的到來。
這是一個非常重要的啟示。幸運的是,大模型領域在過去幾年也發生了一個類似的規律——大模型的能力密度也在不斷增強。隨着大模型的構建,算力和算法的協同發展,逐漸能夠用更少的參數來實現相同的智能水平。
一個非常重要的例子發生在2020年,OpenAI發佈了一個具有1750億參數規模的模型,而到了2024年2月,一個僅有24億參數的模型就能實現相似的能力。這顯然表明,大模型的能力密度在持續增強,也就是在同樣的參數規模下,模型的智能表現得到了顯著提升。
這件事情確實非常困難,因為缺乏像信息傳輸領域的信息論或信息熵那樣的基本單位來衡量一個模型的能力密度。爲了克服這個問題,我們需要做一些假設。
面壁的假設是:如果採用相同的製造工藝,通過充分訓練得到的不同尺寸的模型,它們的能力密度是相同的。基於這個假設,可以嘗試確定一個基準模型(reference model),並將其標準能力密度設定為1。
可以這個框架下用基準模型作為參考,來衡量其他目標模型的能力密度。具體來説,假設以目標模型GPT-3為例,GPT-3的參數規模為1750億參數。通過在一系列標準Benchmark上對模型進行測試,評估其表現,從而確定其智能水平或能力。通過這些測試,可以得出GPT-3在這些測試中的表現,並將其能力密度與基準模型進行比較。
通過這種方法,不僅能瞭解GPT-3的實際能力,也能得到一個衡量其能力密度的相對值,從而進一步比較不同模型的表現和智能水平。
我們可以將MiniCPM作為基準模型,並用它來衡量歷史上所有模型的能力密度,分析不同模型的能力密度,隨着時間的推移,它們的變化規律。這樣,我們實際上得出了一個非常重要的結論,大模型能力密度的規律——Densing Law(密度定律)。
Densing Law表達的核心思想是,在過去幾年中,模型的能力密度呈現出指數級增長的趨勢。也就是説,隨着時間的推移,模型的能力密度不斷增強,並且這種增長不是線性的,而是呈現指數級加速。這一規律揭示了大模型技術的飛速進展,以及在算力和算法的協同作用下,模型能力的持續提升。
2023年以來,隨着全球各大機構加入訓練模型的隊伍中,市場上其實有大量的模型,它們的能力密度大概是按照平均每100天翻倍的速度在快速增長。
2.Densing Law的七個推論
接下來是Densing Law的一些重要結論:
第一個結論是,如果我們錨定某種特定層次的能力,那麼要實現相同能力的模型,其參數規模大約以每100天下降一半的速度進行發展。
也就是説,如果當前爲了實現某個能力,模型的參數規模是n,那麼在100天后,能夠實現相同能力的模型只需要n/2的參數規模。這意味着,隨着時間推移,模型的能力在同樣的資源消耗下得以提升,模型的參數規模大幅度縮減,但仍能維持相同的性能。
第二個結論是,模型的尺寸與推理速度之間存在嚴格的正相關關係。
也就是説,隨着模型尺寸的增大,其推理速度通常會變得更慢。基於這一規律,可以得出結論,對於實現相同能力的模型,其推理開銷會隨着時間的推移呈現出指數級下降的趨勢,而且這一下降速度比模型能力密度的提升速度要快。
為什麼呢?是因為密度定律表明,達到相同能力的模型參數會呈指數遞減,每100天減少一半。這意味着模型的推理速度會提升一倍。同時也可以看到,芯片的算力水平持續增強。此外,模型的推理算法也在不斷改進。最終,這些因素共同作用,導致模型的推理速度實際上是在快速提升,提升的速度大約是每3.3個月加倍,甚至可能更快。
第三個非常重要的趨勢體現在模型的訓練開銷上,訓練開銷隨着時間迅速下降。
有這樣一個經驗公式,大模型的訓練開銷大致與模型的參數規模N和訓練數據量D成正相關。同時現在大家普遍認為,全球的數據已基本被用於預訓練,幾乎已經耗盡,這意味着D基本保持不變。這種情況下可以推斷,大模型的訓練開銷大致與模型的參數規模正相關。
如果以一年為周期,假設當前需要用一個750B參數的模型(即7500億參數)來訓練出相應的模型能力,那麼根據Densing Law,隨着時間的推移,這個能力的密度將大約倍增三次以上。也就是説,一年后只需要不到60B(即不到600億參數)的模型,就能夠實現相同的能力,同時所需的訓練算力將下降到原來的1/12。
第四個結論是,如果我們將時間周期考察得更長一些,會發現大模型的能力密度呈現出加速增強的趨勢。
以2022年底ChatGPT發佈為時間節點,在ChatGPT發佈之前,模型的能力密度是以每4.8個月的速度倍增;而在ChatGPT發佈之后,這一倍增速度加快到每3.2個月一次。這實際上反映了隨着全球更多人力、算力和資源的投入到大模型領域,相關技術的演進速度得到了加速。
第五個結論是,隨着模型的能力密度持續增強,並且隨着芯片電路密度的不斷提升,這將引發一個非常重要的化學反應:隨着時間的推移和模型能力密度的持續增強,我們可以用更少的參數來實現曾經需要更大參數規模才能達到的模型能力。也就是從左上到右下的這條曲線。
而另一條曲線是從左下到右上的藍色虛線,代表的是隨着芯片能力的持續增強,我們能夠在端側部署並運行更大的模型。可以看到,這兩條曲線是相向而行的。這個非常重要的結論是,只要世界上有任何機構或組織能夠訓練出一個模型,隨着這兩條曲線的發展,未來某個時刻,人們一定能夠在終端上部署並運行這個模型。這揭示了端側智能的巨大潛力。
第六個非常重要的結論是,很多組織或研究機構都在嘗試利用模型壓縮技術,試圖將已有的超大模型壓縮成更小的模型。
但大量實驗表明,如果僅僅依靠剪枝和蒸餾等技術,最終得到的小模型,其能力密度甚至可能比原始的大模型更低。因此,現有的模型壓縮技術實際上會導致模型的能力密度下降,和能力顯著劣化。
如果想要得到一個能力密度更強的模型,那麼需要在各個方面的技術上去推進,把模型從頭訓出來。
第七個結論是,模型能力密度倍增的周期實際上決定了該模型的有效使用期。
換句話説,一旦模型訓練完成,它在未來幾個月內可能會出現一個能力更強、參數規模更小、推理成本更低的新模型。在這種情況下,我們顯然會選擇成本更低、能力更強的模型。因此,即便是用最強的知識密度訓練出來的模型,也必然會有一個使用周期或有效期。在這個有效期內,需要充分發揮模型的應用價值。
針對以上結論,面壁有一個關鍵的判斷,那就是模型能力密度的持續增強並非憑空而來,而是由模型的架構、學習方法以及數據治理水平等多方面因素共同作用的結果。因此,面向未來,每個團隊都應圍繞如何極致地提升模型能力密度展開探索,進而構建大模型的科學化建設方案。只有這樣,才能實現大模型的高質量、高能力密度發展。
在這一過程中,面壁認為,必須實現人工智能的科學化,並找到其理論基礎。
3.Densing Law的理論基礎
當然,現在談論的方向還處於一個非常初步的探索階段。與信息論以及其他許多學科相比,它的科學理論仍然非常薄弱。
然而,面壁已經發現,有三個非常重要的要素極大地影響模型能力密度:第一個是模型的框架;第二個是模型的知識來源,也就是數據治理的水平;第三個是從數據到知識的成長規律。這三個因素實際上是決定模型能力密度的最關鍵要素。因此,顯然需要圍繞這三者,建立一套科學化的理論體系。
Scaling Law告訴我們,如果採用相同的模型製造工藝,我們可以得到一條又一條的曲線,隨着模型規模的增長,其能力也會相應提升。但顯然,面向未來,人們的目標不是沿着同一製造工藝平緩地發展下去。我們要做的是不斷改進模型的製造工藝,提高模型的能力密度,從而追求更加陡峭的模型成長曲線。通過這種方式,纔可以實現模型的高質量發展,增強模型在市場上的競爭力。正是基於這樣的判斷,在過去的一年里,面壁團隊一直在極致追求更高能力密度的模型。
今年9月,面壁在一個40億參數的端側模型上實現了ChatGPT水平的能力,這個是在文本的基座模型上;今年8月,面壁在80億參數規模的端側模型上實現了GPT-4V水平的能力。
根據模型的能力密度的定律,其實我們大致可以預測,在未來的一到兩年的時間里面,我們可以在終端上實現GPT-4的文本模型基座,實現GPT-4o的多模態的基座。在那一刻實現之后,我們顯然可以在終端上迎來一個非常廣闊的大模型應用前景。
我們正在迎來的是一場智能革命,智能革命會怎麼到來?會以什麼樣的方式到來?正如要向摩爾定律去借鑑一樣,那我們也可以從信息革命中獲得啟示。
在信息革命到來的初期,IBM的董事長沃森曾經發表言論説,這個世界上不需要超過五臺主機就可以滿足全球的計算的需求。但是到了2024年,全球有超過13億台的PC,有超過70億部手機,有超過180億個各種各樣接入到互聯網的IoT的設備,有超過2000億個正在運行的CPU。
面壁認為大型機顯然不是信息革命的重要的標誌,而是80年代、 90年代真正讓每個人用得起、用得上的PC,和現在人手一臺的手機,這纔是真正的信息革命的標誌。
面向未來,全球的數據是分佈式的,這就意味着我們的人工智能無處不在,一定會是需要無數個大模型,才能夠真正地實現讓人工智能賦能每個人。
面壁認為人工智能時代的核心引擎其實有三個:一個是電力,一個是算力,一個是智力。其實相關的學科都在不斷地追求密度持續增強的這麼一個發展方向,譬如説電池的能量密度按照每10年倍增的周期來發展;芯片的電路密度是按照每18個月倍增的周期來發展;而模型的能力密度,它的倍增的周期是100天的時間。
也許明年后年這個倍增的周期會發生一些波動,但密度定律本身是普遍存在的,它體現了技術發展的價值,就是要不斷地去利用各種更強的外力,去實現電力、算力和智力的熵減,能夠帶來更多的秩序,能夠讓它以更低的成本、更好的效率、更強的能力來服務每一個人。
4.未來的大模型會像CPU一樣無處不在
以下是「甲子光年」等媒體對劉知遠的採訪內容:
問:你在報告中表示隨着模型能力密度的持續增強和芯片電路密度的不斷提升,端側AI生態即將迎來一個潛在的爆發點。在你看來,這個爆發點大概會在什麼時候出現?這個爆發點出現的時候,端側AI的模型參數和成本大概會是什麼樣的?
劉知遠:Densing Law推斷,每100天模型的參數規模就能減少一半,實現和現有模型相同的能力。根據這個推論,預計大致在明年和后年,我們將能夠使用大約80億或40億參數的模型來實現GPT-4和GPT-4o的能力。
現在大家普遍認為,每個人都能用得上的、而且效果也還不錯的模型,也就是GPT-4和GPT-4o了。我們覺得到了明年和后年,它們將能夠在終端設備上運行,且成本會大幅降低。這里的成本,取決於你説的是訓練成本,還是使用成本(推理成本)。因為使用成本本身就包括了我們日常購買的設備費用,比如水電費等。
所以面壁認為,未來的目標是讓這個模型儘可能小巧,能夠在一個芯片上運行,從而使得用户無需額外支付。也就是説,雖然目前模型的訓練可能需要幾百萬的投入,但一旦這個模型被裝載到手機等終端設備上,用户已經為設備支付了費用,后續使用的成本可以忽略不計。
問:你們的論文《Densing Law of LLMs》中有提到,谷歌Gemma-2-9B模型,其訓練成本約為185萬人民幣,但是僅兩個月后,它的性能就被參數量減半的MiniCPM-3-4B超越。在這種趨勢下,大模型的有效使用期縮短了。你如何看待接下來AI大模型的迭代速度?
劉知遠:第一,高支持力、高能力密度對大模型會變得更重要,各家公司應該都去追求更高的能力密度,去訓練自己的模型,這件事情意味着更低的推理成本、更快的推理速度。特別是在終端上,因為終端能耗高,且芯片的算力和內存其實都是極度受限的,它本身不會給模型太多的空間。模型越小,其實競爭力越強,所以其實高能力密度的模型在終端上的價值會更大一些。這也是我們往往要用最高製程的芯片來支持手機的原因,手機對芯片的空間和能耗其實是有極大限制的,它其實是帶着約束,推動我們把芯片的能力發揮到極致。
到了雲上邏輯就不太一樣,因為雲側有一些團隊可以發揮鈔能力來解決問題,也許我訓出的模型比別人要大兩倍才能達到相同的效果,但是我有錢,那我就可以租10倍的算力去打擊競爭對手,這個可以通過價格戰來搞定。先把所有的競爭對手餓死,把市場搶佔下來。
這個跟當年互聯網的版權之爭、外賣之爭、共享單車之爭是非常像的,最后都會變成「鈔能力」的競爭,在雲上總是不可避免的發展成這種態勢。所以我認為在終端上的競爭可以更加技術驅動。
問:Densing Law的發現,對於端側芯片有沒有提出更高的要求?比如之前MiniCPM-2.6V發佈的時候是在M4芯片的iPad上跑的,是不是隻有M4這種級別的芯片才能運行未來的端側大模型?
劉知遠:這是很好的問題,比如我們現在已經能夠把GPT-4V的模型能力用80億參數實現,但是能支持在終端上去運行80億參數的芯片,目前M4是比較強的。所以在一些廉價的場景上去使用端側模型,還是需要一些更小的參數才行,這是第一個方面;
第二個方面是我們的一個基本研判,就像剛纔我們提到的最先進製程的芯片往往是用來支撐端側的,那麼面壁認為未來大模型的最前沿技術一定首先發生在端側模型上。
譬如我們會在明年推出全新的模型架構,來支持我們用更少的內存、更少的推理成本來實現端側模型更強的能力,這樣模型在終端上的突破優勢會更明顯,但是對應的這些前沿技術和模型架構,對底層的芯片其實是更高的要求。但是模型的迭代速度會更快,因為它是純軟件的,模型的Densing Law是每100天迭代一次,但是對於芯片來講是每18個月迭代一次。其實18個月接近兩個月的時間,這中間還是存在一定的時間差的。所以我們大致會認為模型會跑得更快一點。
在這種情況下,一旦某些非常重要的一些feature,譬如模型架構等,一旦我們能夠證明模型在某種架構下能表現更好,那麼在芯片下一輪的迭代中,設計方案可能也會隨之做出調整。
現在來看,對於模型稀疏性的支持度上,英偉達的專屬芯片是支持的最好的,包括高通,包括其他的端側芯片,其實對於稀疏計算都沒有那麼強的支持。所以我們會認為這是接下來一兩年芯片廠商會持續迭代和改進的方向。
問:Densing Law意味着我們將來或許不再需要那麼大的算力去訓練模型了?
劉知遠:我不太認可這個結論。我會認為是,現在的Scaling Law其實是非常的浪費算力的,導致現在的模型無論是訓練的成本還是推理的成本都是極高的。
就像我報告里分享的,信息革命的初期,IBM預測全世界只需要不超過5臺大型機,但是到了2024年的今天,全球大概有13億台PC、70億部手機、幾百億接入到 互聯網的各種各樣的設備,有2000億的CPU在運行。
那你就可以設想,現在甚至還有人會説這個世界上不需要超過5個或者幾個大模型,我覺得這個跟當年IBM董事長的論調一樣, 都是非常短視的,我認為未來的大模型其實是會像CPU一樣,它應該是要無處不在的。
所以在這種情況下,雖然Densing Law讓我們訓練單個模型的算力變小了,但是如果乘以它的數量的話,我覺得對算力的需求仍然會是一個逐步增大的過程。單個芯片的算力跟最早的大型機相比,已經變大了很多,但是我認為它的成本是在降低的,只是它的數量變得更多了。
所以我認為我們首先應該降低成本,然后讓它實現類似於PC機當時的Tipping Point(引爆點,英國作家馬爾科姆·格拉德威爾的書中提到的一個觀念,表達了微小行為如何能對世界產生巨大影響)。如果我們真的能讓世界上的每個人擁有一個屬於自己的大模型,去支撐自己生活、學習和工作,這麼好的事為什麼不去做呢?但是這件事實現的前提就是模型的成本和芯片的成本,都要通過技術手段不斷往下壓。