繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

大模型是不是有點太多了?

2023-10-21 22:08

  上個月,AI業界爆發了一場「動物戰爭」。

  一方是Meta推出的Llama(美洲駝),由於其開源的特性,歷來深受開發者社區的歡迎。NEC(日本電氣)在仔細鑽研了Llama論文和源代碼后,迅速「自主研發」出了日語版ChatGPT,幫日本解決了AI卡脖子難題。

  另一方則是一個名為Falcon(獵鷹)的大模型。今年5月,Falcon-40B問世,力壓美洲駝登頂了「開源LLM(大語言模型)排行榜」。

  該榜單由開源模型社區Hugging face製作,提供了一套測算LLM能力的標準,並進行排名。排行榜基本上就是Llama和Falcon輪流刷榜。

  Llama 2推出后,美洲駝家族扳回一城;可到了9月初,Falcon推出了180B版本,又一次取得了更高的排名。

Falcon以68.74分力壓Llama 2

Falcon以68.74分力壓Llama 2

  有趣的是,「獵鷹」的開發者不是哪家科技公司,而是位於阿聯酋首都阿布扎比的科技創新研究所。政府人士表示,「我們參與這個遊戲是爲了顛覆核心玩家」[4]

  180B版本發佈第二天,阿聯酋人工智能部長奧馬爾就入選了《時代周刊》評選的「AI領域最具影響力的100人」;與這張中東面孔一同入選的,還有「AI教父」辛頓、OpenAI的阿爾特曼,以及李彥宏。

  如今,AI領域早已步入了「羣魔亂舞」的階段:但凡有點財力的國家和企業,或多或少都有打造「XX國版ChatGPT」的計劃。僅在海灣國家的圈子內,已不止一個玩家——8月,沙特阿拉伯剛剛幫國內大學購買了3000多塊H100,用於訓練LLM。

  金沙江創投朱嘯虎曾在朋友圈吐槽道:「當年看不起(互聯網的)商業模式創新,覺得沒有壁壘:百團大戰、百車大戰、百播大戰;沒想到硬科技大模型創業,依然是百模大戰……」

  説好的高難度硬科技,怎麼就搞成一國一模畝產十萬斤了?

Transformer吞噬世界

  美國的初創公司、中國的科技巨擘、中東的石油大亨能夠逐夢大模型,都得感謝那篇著名的論文:《Attention Is All You Need》。

  2017年,8位谷歌的計算機科學家在這篇論文中,向全世界公開了Transformer算法。這篇論文目前是人工智能歷史上被引數量第三高的論文,Transformer的出現則扣動了此輪人工智能熱潮的扳機。

  無論當前的大模型是什麼國籍,包括轟動世界的GPT系列,都是站在了Transformer的肩膀上。

  在此之前,「教機器讀書」曾是個公認的學術難題。不同於圖像識別,人類在閲讀文字時,不僅會關注當前看到的詞句,更會結合上下文來理解。

  比如「Transformer」一詞其實可翻譯成「變形金剛」,但本文讀者肯定不會這麼理解,因為大家都知道這不是一篇講好萊塢電影的文章。

  但早年神經網絡的輸入都彼此獨立,並不具備理解一大段文字、甚至整篇文章的能力,所以纔會出現把「開水間」翻譯成「open water room」這種問題。

  直到2014年,在谷歌工作、后來跳槽去了OpenAI的計算機科學家伊利亞(Ilya Sutskever)率先出了成果。他使用循環神經網絡(RNN)來處理自然語言,使谷歌翻譯的性能迅速與競品拉開了差距。

  RNN提出了「循環設計」,讓每個神經元既接受當前時刻輸入信息,也接受上一時刻的輸入信息,進而使神經網絡具備了「結合上下文」的能力。

循環神經網絡

循環神經網絡

  RNN的出現點燃了學術圈的研究熱情,日后Transformer的論文作者沙澤爾(Noam Shazeer)也一度沉迷其中。然而開發者們很快意識到,RNN存在一個嚴重缺陷:

  該算法使用了順序計算,它固然能解決上下文的問題,但運行效率並不高,很難處理大量的參數。

  RNN的繁瑣設計,很快讓沙澤爾感到厭煩。因此從2015年開始,沙澤爾和7位同好便着手開發RNN的替代品,其成果便是Transformer[8]

  相比於RNN,Transformer的變革有兩點:

  一是用位置編碼的方式取代了RNN的循環設計,從而實現了並行計算——這一改變大大提升了Transformer的訓練效率,從而變得能夠處理大數據,將AI推向了大模型時代;二是進一步加強了上下文的能力。

  隨着Transformer一口氣解決了眾多缺陷,它漸漸發展成了NLP(自然語言處理)的唯一解,頗有種「天不生Transformer,NLP萬古如長夜」的既視感。連伊利亞都拋棄了親手捧上神壇的RNN,轉投Transformer。

  換句話説,Transformer是如今所有大模型的祖師爺,因為他讓大模型從一個理論研究問題,變成了一個純粹的工程問題。

LLM技術發展樹狀圖,灰色的樹根就是Transformer[9]

  2019年,OpenAI基於Transformer開發出了GPT-2,一度驚艷了學術圈。作為迴應,谷歌迅速推出了一個性能更強的AI,名叫Meena。

  和GPT-2相比,Meena沒有底層算法上的革新,僅僅是比GPT-2多了8.5倍的訓練參數、14倍的算力。Transformer論文作者沙澤爾對「暴力堆砌」大受震撼,當場寫了篇「Meena吞噬世界」的備忘錄。

  Transformer的問世,讓學術界的底層算法創新速度大大放緩。數據工程、算力規模、模型架構等工程要素,日漸成為AI競賽的重要勝負手,只要有點技術能力的科技公司,都能手搓一個大模型出來。

  因此,計算機科學家吳恩達在斯坦福大學做演講時,便提到一個觀點:「AI是一系列工具的集合,包括監督學習、無監督學習、強化學習以及現在的生成式人工智能。所有這些都是通用技術,與電力和互聯網等其他通用技術類似。[10]

  OpenAI固然仍是LLM的風向標,但半導體分析機構Semi Analysis認為,GPT-4的競爭力源自工程解決方案——如果開源,任何競爭對手都能迅速復現。

  該分析師預計,或許用不了太久,其他大型科技公司也能打造出同等於GPT-4性能的大模型[11]

建在玻璃上的護城河

  當下,「百模大戰」已不再是一種修辭手法,而是客觀現實。

  相關報告顯示,截止至今年7月,國內大模型數量已達130個,高於美國的114個,成功實現彎道超車,各種神話傳説已經快不夠國內科技公司取名的了[12]

  而在中美之外,一眾較為富裕的國家也初步實現了「一國一模」:除了日本與阿聯酋,還有印度政府主導的大模型Bhashini、韓國互聯網公司Naver打造的HyperClova X等等。

  眼前這陣仗,彷彿回到了那個漫天泡沫、「鈔能力」對轟的互聯網拓荒時代。

  正如前文所説,Transformer讓大模型變成了純粹的工程問題,只要有人有錢有顯卡,剩下的就丟給參數。但入場券雖不難搞,也並不意味着人人都有機會成為AI時代的BAT。

  開頭提到的「動物戰爭」就是個典型案例:Falcon雖然在排名上力壓美洲駝,但很難説對Meta造成了多少衝擊。

  衆所周知,企業開源自身的科研成果,既是爲了與社會大眾分享科技的福祉,同樣也希望能調動起人民羣眾的智慧。隨着各個大學教授、研究機構、中小企業不斷深入使用、改進Llama,Meta可以將這些成果應用於自己的產品之中。

  對開源大模型而言,活躍的開發者社羣纔是其核心競爭力。

  而早在2015年組建AI實驗室時,Meta已定下了開源的主基調;扎克伯格又是靠社交媒體生意發的家,更是深諳於「搞好羣衆關係」這件事。

  譬如在10月,Meta就專程搞了個「AI版創作者激勵」活動:使用Llama 2來解決教育、環境等社會問題的開發者,將有機會獲得50萬美金的資助。

  時至今日,Meta的Llama系列儼然已是開源LLM的風向標。

  截至10月初,Hugging face的開源LLM排行榜Top 10中,共有8個都是基於Llama 2所打造的,均使用了它的開源協議。僅在Hugging face上,使用了Llama 2開源協議的LLM已經超過了1500個[13]

截止至10月初,Hugging face上排名第一的LLM,基於Llama 2打造

截止至10月初,Hugging face上排名第一的LLM,基於Llama 2打造

  當然,像Falcon一樣提高性能也未嘗不可,但時至今日,市面上大多數LLM仍和GPT-4有着肉眼可見的性能差距。

  例如前些日子,GPT-4就以4.41分的成績問鼎AgentBench測試頭名。AgentBench標準由清華大學與俄亥俄州立大學、加州大學伯克利分校共同推出,用於評估LLM在多維度開放式生成環境中的推理能力和決策能力,測試內容包括了操作系統、數據庫、知識圖譜、卡牌對戰等8個不同環境的任務。

  測試結果顯示,第二名的Claude僅有2.77分,差距仍較為明顯。至於那些聲勢浩大的開源LLM,其測試成績多在1分上下徘徊,還不到GPT-4的1/4[14]

AgentBench測試結果

AgentBench測試結果

  要知道,GPT-4發佈於今年3月,這還是全球同行追趕了大半年之后的成績。而造成這種差距的,是OpenAI「智商密度」極高的科學家團隊與長期研究LLM積累下來的經驗,因此可以始終遙遙領先。

  也就是説,大模型的核心能力並不是參數,而是生態的建設(開源)或純粹的推理能力(閉源)

  隨着開源社區日漸活躍,各個LLM的性能可能會趨同,因為大家都在使用相似的模型架構與相似的數據集。

  另一個更直觀的難題是:除了Midjourney,好像還沒有哪個大模型能賺到錢。

價值的錨點

  今年8月,一篇題為「OpenAI可能會於2024年底破產」的奇文引起了不少關注[16]。文章主旨幾乎能用一句話概括:OpenAI的燒錢速度太快了。

  文中提到,自從開發ChatGPT之后,OpenAI的虧損正迅速擴大,僅2022年就虧了約5.4億美元,只能等着微軟投資人買單。

  文章標題雖聳人聽聞,卻也講出了一眾大模型提供商的現狀:成本與收入嚴重失衡。

  過於高昂的成本,導致目前依靠人工智能賺了大錢的只有英偉達,頂多再加個博通。

  據諮詢公司Omdia預估,英偉達在今年二季度賣出了超30萬塊H100。這是一款AI芯片,訓練AI的效率奇高無比,全世界的科技公司、科研機構都在搶購。如果將賣出的這30萬塊H100疊在一起,其重量相當於4.5架波音747飛機[18]

  英偉達的業績也順勢起飛,同比營收暴漲854%,一度驚掉了華爾街的下巴。順帶一提,目前H100在二手市場的價格已被炒到4萬~5萬美金,但其物料成本僅有約3000美金出頭。

  高昂的算力成本已經在某種程度上成爲了行業發展的阻力。紅杉資本曾做過一筆測算:全球的科技公司每年預計將花費2000億美金,用於大模型基礎設施建設;相比之下,大模型每年最多隻能產生750億美金的收入,中間存在着至少1250億美金的缺口[17]

  另外,除了Midjourney等少數個例,大部分軟件公司在付出了巨大的成本后,還沒想清楚怎麼賺錢。尤其是行業的兩位帶頭大哥——微軟和Adobe都走得有些踉蹌。

  微軟和OpenAI曾合作開發了一個AI代碼生成工具GitHub Copilot,雖然每個月要收10美元月費,但由於設施成本,微軟反而要倒虧20美元,重度用户甚至能讓微軟每月倒貼80美元。依此推測,定價30美元的Microsoft 365 Copilot,搞不好虧的更多。

  無獨有偶,剛剛發佈了Firefly AI工具的Adobe,也迅速上線了一個配套的積分系統,防止用户重度使用造成公司虧損。一旦有用户使用了超過每月分配的積分,Adobe就會給服務減速。

  要知道微軟和Adobe已經是業務場景清晰,擁有大量現成付費用户的軟件巨頭。而大部分參數堆上天的大模型,最大的應用場景還是聊天。

  不可否認的是,如果沒有OpenAI和ChatGPT的橫空出世,這場AI革命或許壓根不會發生;但在當下,訓練大模型所帶來的價值恐怕得打一個問號。

  而且,隨着同質化競爭加劇,以及市面上的開源模型越來越多,留給單純的大模型供應商的空間或許會更少。

  iPhone 4的火爆不是因為45nm製程的A4處理器,而是它可以玩植物大戰殭屍和憤怒的小鳥。

  參考資料

  [1] LLM Leaderboard Gone Wrong,Analytics India Mag

  [2] NEC獨自の大規模言語モデル(LLM)開発の里側に迫る

  [3] Spread Your Wings: Falcon 180B is here

  [4] Abu Dhabi throws a surprise challenger into the AI race,The Economist

  [5] TIME 100/AI

  [6] OpenAI背后的領袖Ilya Sutskever:一個計算機視覺、機器翻譯、遊戲和機器人的變革者,機器之心

  [7] 深度學習算法發展:從多樣到統一,國金證券

  [8] Your AI Friends Have Awoken, With Noam Shazeer,No Priors

  [9] Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond,Jingfeng Yang、Hongye Jin等

  [10] Andrew Ng: Opportunities in AI - 2023,Stanford Online

  [11] GPT-4 Architecture, Infrastructure, Training Dataset, Costs, Vision, MoE,Semi Analysis

  [12] IT 2023,賽迪顧問

  [13] Open LLM Leaderboard,Hugging face

  [14] AgentBench: Evaluating LLMs as Agents,Xiao Liu, Hao Yu等

  [15] Who Owns the Generative AI Platform,a16z

  [16] OpenAI Might Go Bankrupt by the End of 2024,Analytics India Mag

  [17] AI’s $200B Question,Sequoia

  [18] Nvidia Sold 900 Tons of H100 GPUs Last Quarter, Says Analyst Firm,tomshardware

  [19] Character.ai‘s Noam Shazeer: 「Replacing Google - and your mom」,Danny In The Valley

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。