熱門資訊> 正文
2023-12-01 14:54
11月28-29日,36氪WISE2023 商業之王大會在北京國際會議中心盛大舉辦。本屆大會以「太陽照常升起 The Sun Always Rises」為主題,橫跨一個主會場與六大垂直領域專場。主會場聚焦「未來3650天」、「在產業洪流中」、「進擊中的萬聯網」、「AI與商業增量」、「全球品牌看中國」、「科技至上 共鑑創新」六大篇章重點議程,邀請全領域商業大咖展開為期兩天的頂級商業對話,向現在提問,給未來答案。
后摩智能聯合創始人項之初發表了主題為《存算一體,面向未來十年的算力引擎》的演講。后摩智能是一家初創AI芯片創業公司。項之初認為,當下以ChatGPT為代表的生成式AI正發展如火如荼,但同時背后海量級的數據處理也對計算資源、計算成本帶來相當大挑戰。
「按照現在生成式AI的快速發展,2027年預計英偉達大概需要提供150萬台服務器,每年消耗的電量,我們大概算了一下,接近一個瑞典或荷蘭、阿根廷體量的國家一年耗電量。當AGI初步實現的階段,大概需要43個美國全年的耗電量,這是地球無法承受的耗電量。」
而存算一體芯片,可以從架構層面顛覆存儲與計算分離的傳統範式。在芯片架構底層,將存儲和計算融合,不僅可以大幅度提升單位時間的計算密度,效率大大提升,同時功耗更低、成本更低,相較於應用單一的傳統架構方案,供應鏈風險也更低。
以下為項之初演講正文:
大家好,我是后摩智能聯合創始人項之初,下面我給大家帶來《存算一體,面向未來十年的算力引擎》的主題演講。
后摩智能聯合創始人項之初
后摩智能是做一個算力芯片的初創公司,成立也快三年了。我們一直強調一個概念,最原始的算力就是我們的大腦。遠古時候大腦不夠用的時候,人類會用結繩石頭去擴充算力。再后面,東方就進入了算盤時代,但一直停留在算盤,后來發明了各種各樣算盤。
西方從1946年第一臺計算機出現,就進入了一個算力爆炸的時代。第一臺計算機可能只有5000次的計算量,當時重達30噸、佔地170平、功耗150千瓦,但它是手工計算20萬倍的計算效率,也從此讓西方走上了超速發展的道路。
個人計算機以及手機的出現,包括ChatGPT,算力其實一直在重塑着人類社會的生產力。最近OpenAI代表的AI的應用,已經在飛速發展。回顧算法模型的演進歷史,2012年深度學習的出現是一個轉折點,AI進入了神經網絡深度學習的階段。2017年出現的transformer,當時谷歌的一篇論文《Attention Is All You Need》,讓神經網絡進入了自注意力階段,transformer 為基礎的大模型開始蓬勃發展。一年前,ChatGPT用兩個月時間達到1億的用户量,遠遠超過之前其他的APP收穫上億級用户所需要的時間。
未來算法到底會怎麼演進,其實我回答不了這個問題。是不是transformer就真的統一了所有的大模型計算方式?但至少模型對算力的需求快速增長是確定的。OpenAI預測未來3.5個月算力需求就會翻一番,這是前ChatGPT時代做的預測。再到后面是不是會有更大的算力需求?這些大的模型或者説大參數量的計算,成本是非常高的。
首先訓練的成本,GPT3.0基本上一次訓練成本140萬美元,更大的模型的話,訓練成本會介於200萬-1200萬美元之間。除了訓練成本,推理成本也很大。如果把大模型部署到google search里面,對英偉達A100的需求量將突破400萬片,每年電費運營成本就有84億美元。這是二級市場研究對英偉達服務器的需求量做的預估。
按照現在生成式AI的快速發展,2027年預計英偉達大概需要提供150萬台服務器,每年消耗的電量,我們大概算了一下,接近一個瑞典或荷蘭、阿根廷體量的國家一年耗電量。當AGI初步實現的階段,大概需要43個美國全年的耗電量,這是地球無法承受的耗電量。
記得2016年AlphaGo和李世石的圍棋大戰,當時雖然AlphaGo以4:1贏了李世石,大家都只看到了輸贏的結果,但如果分析后面的代價,AlphaGo那盤棋的電費差不多2萬元人民幣,李世石的大腦運轉只是兩碗米飯的消耗,所以他們計算效率不在一個維度上。
人是遠比計算機要高效的,問題是,我們是否可以做出一個類似人腦的芯片來提供底層的算力呢?其實存算一體就是一個接近於人腦的計算架構。因為人腦其實是存儲和計算是不分開的,我們的神經元細胞不會説這里是計算,那邊是存儲,每一個神經元細胞既是存儲,也是計算。
我們大概有這麼100萬億個左右的一個連接,所以形成了一個非常高效而且很智能的大腦。計算機從第一臺架構發明,到現在英偉達每一代芯片迭代,比如説H100到A100就是不斷增加了帶寬,存儲的容量能夠大幅提升。
第二是功耗強的問題,芯片大概有80%-90%的功耗其實是浪費在數據的存儲和計算之間的搬運,而不是在計算中使用到這些功耗。而存算一體的概念,就是在底層把存儲和計算作一個融合。我們把存儲的電路打開,然后把計算的電路加入進來。它其實是一個治標治本的方式,去面對今天爆炸或者説很變態的一個數據量發展需求,它會更高效、更接近於人腦的計算方式。
總結的話,存算一體芯片一是上限高,第二就是底線穩。上限高就是計算性能好,功耗更低成本也更好。就是原理上,數據不用反覆搬運以后,計算密度得到了提升。所以在單位計算面積,反而可以比原來的傳統架構更小。
第二個是底線會更穩,在今天國際大環境下,高製程芯片流片可能受到限制。而存算一體用28納米制程可以做出傳統架構7納米的效果,這是供應鏈的一個重要保障。國內外有很多創業體已經開始了一個存算一體產業化的探索,好的技術一定不會只有一個公司在做。
特斯拉的Dojo計算機因為沒有歷史包袱,所以重新設計了一個適合數據爆炸時代的芯片架構,沒有用原來傳統的GPU的個架構,計算的效率也很高。摩根斯坦利最近給Dojo的資產估值5000億美元。
后摩智能今年5月份發佈了第一顆芯片產品叫后摩鴻途®H30,這是一顆256 tops物理算力的芯片,只有35瓦功耗,而且只用了12納米工藝。相比於當前國際友商的暢銷產品,我們的製程還落后了一代,等於我們是在落后一代情況下,做到了跟國際友商比2-3倍提升的性能,並且功耗只有它的1/2。如果不做一個底層的架構的創新,是不可能有這樣的實際測試結果的。
我們的第二代芯片現在也已經在做性能提升了,我們做了一個新架構的嘗試,是比較大膽的。但我們在實際的落地過程中是非常謹慎的。每一代產品都會先做一個測試驗證片,然后再做一個產品片。比如我們今年5月份發佈的后摩鴻途®H30,是我們在2022年就做了的驗證樣片。
關於第二代架構,我們其實今年也做了一個7納米的車規級驗證樣片,專為transformer等車端大模型做了優化設計,並且已經通過了一個量產測試,良率、性能以及功耗的表現都有超出預期。相較於市面上全球主流的存算一體產品,在存算模塊我們有了五倍以上的能效提升。我們非常期待明年推出的時候會收穫很好的反響。
至於后摩智能的商業落地情況,第一代芯片我們瞄準最主要是智能駕駛,我們一直相信大模型的應用,需要更多算力,而且是計算效率更好的芯片。我們同時要瞄準了邊緣端的市場,尤其是大模型出現以后,很多的解決方案商覺得,原來一些碎片細分市場會應付不過來,基於tranformer的更通用的邊緣端芯片,會加速AI落地速度。
回顧一下,從第一代很計算機一瓦一兆的能效比,到2000年PC端計算機大概是一瓦一千兆,中間是一千倍的提升,現在我們手機時代處於一瓦一T的時代,又是一千倍的提升。可以再想象一下,萬物智能的時代,我們需要怎樣的芯片,需要怎樣的算力,地球才能承受那麼多的計算。人腦已經是很高效的計算,1瓦100000T的能效,也是后摩追求的夢想,存算一體可以做到1瓦1000T的效果,比如説最底層存算單元,第一代就可以接近1瓦100T的量級。
前段時間跟一些投資人溝通的時候,一些投資人會覺得雲端數據中心的芯片對功耗不敏感。但大家是用靜態的眼光看待問題,如果説看見通用人工智能出現,未來初代AGI是什麼樣子之后,會發現一定是巨量芯片需求和巨大的電耗,而不是今天理解的數據中心和服務器的概念。
未來的AGI不是一個機器,而是一種新的生物,需要巨量芯片處理器,功耗會非常敏感的,它能替代大部分人的腦力勞動,但需要幾十個美國的電量,是地球無法承受的結果。后摩智能希望在這樣一個發展過程中,作為一個創新架構的芯片公司貢獻自己的力量,謝謝大家!