熱門資訊> 正文
2024-06-26 08:58
近日,AI芯片初創公司Etched宣佈,已籌集 1.2 億美元,向 Nvidia 發起 AI 芯片設計挑戰。
Etched 正在設計一款名為 Sohu 的新芯片,用於處理 AI 處理的一個關鍵部分:Transformation。該公司表示,通過將 Transformer 架構刻錄到芯片中,它正在打造世界上最強大的 Transformer 推理服務器。Etched 表示,這是有史以來最快的 Transformer 芯片。
Primary Venture Partners 和 Positive Sum Ventures 領投了此輪融資,並獲得了 Hummingbird、Fundomo、Fontinalis、Lightscape、Earthshot、Two Sigma Ventures(戰略)和 Skybox Data Centers(戰略)等機構投資者的支持。
值得一提的是,該公司的天使投資人包括 Peter Thiel、Stanley Druckenmiller、 David Siegel、Balaji Srinivasan、Amjad Masad、Kyle Vogt、Kevin Hartz、Jason Warner、Thomas Dohmke、Bryan Johnson、Mike Novogratz、Immad Akhund、Jawed Karim 和 Charlie Cheeve。
泰爾獎學金主任亞歷克斯·漢迪 (Alex Handy) 在一份聲明中表示:「投資 Etched 是對人工智能價值的戰略押注。他們的芯片解決了競爭對手不敢解決的可擴展性問題,挑戰了同行普遍存在的停滯不前現象。Etched 的創始人體現了我們支持的非傳統人才——從哈佛輟學,進軍半導體行業。他們付出了艱苦的努力,以便硅谷的其他人可以繼續安心地編程,而不必擔心他們正在研究的任何底層技術。」
Transformer一統江湖, GPU撞牆
正如大家所所看到的,過去解決AI問題,都是考GPU。不過Etched在博客中表示,聖克拉拉的祕密是,GPU 並沒有變得更好,而是變得更大了。四年來,芯片單位面積的計算能力 (TFLOPS) 幾乎保持不變。
他們表示,NVIDIA 的 B200、AMD 的 MI300、英特爾的 Gaudi 3 和亞馬遜的 Trainium2 都將兩塊芯片算作一張卡,以實現「雙倍」性能。從 2022 年到 2025 年,AI 芯片並沒有真正變得更好,而是變得更大了。2022 年到 2025 年,所有 GPU 性能提升都使用了這個技巧,但Etched 除外。
在 transformer 統治世界之前,許多公司都構建了靈活的 AI 芯片和 GPU 來處理數百種不同的架構。以下列舉一些:
NVIDIA的GPUs、Google的TPUs、Amazon的Trainium、AMD的加速器、Graphcore的IPUs、SambaNova SN Series、Cerebras的CS-2、Groq的GroqNode、Tenstorrent的Grayskull、D-Matrix的Corsair、Cambricon的Siyuan和Intel的Gaudi.
從來沒有人制造過專門針對算法的 AI 芯片 (ASIC)。芯片項目的成本為 5000 萬至 1 億美元,需要數年時間才能投入生產。我們剛開始時,沒有市場。
突然間,情況發生了變化:
前所未有的需求:在 ChatGPT 之前,Transformer 推理的市場約為 5000 萬美元,現在則達到數十億美元。所有大型科技公司都使用 Transformer 模型(OpenAI、谷歌、亞馬遜、微軟、Facebook 等)。
架構上的融合:AI 模型過去變化很大。但自 GPT-2 以來,*進的模型架構幾乎保持不變!OpenAI 的 GPT 系列、谷歌的 PaLM、Facebook 的 LLaMa,甚至 Tesla FSD 都是 Transformer。
當模型的訓練成本超過 10 億美元,推理成本超過 100 億美元時,專用芯片是不可避免的。在這個規模下,1% 的改進將證明 5000 萬至 1 億美元的定製芯片項目是合理的。
事實上,ASIC 的速度比 GPU 快幾個數量級。當比特幣礦機於 2014 年進入市場時,丟棄 GPU 比使用它們來挖掘比特幣更便宜。
由於涉及數十億美元的資金,人工智能也將發生同樣的情況。
Transformer 驚人地相似:諸如 SwiGLU 激活和 RoPE 編碼之類的調整隨處可見:LLM、嵌入模型、圖像修復和視頻生成。
雖然 GPT-2 和 Llama-3 是相隔五年的*進的 (SoTA) 模型,但它們的架構幾乎相同。*的主要區別是規模。
Etched相信硬件彩票(hardware lottery):獲勝的模型是那些可以在硬件上運行速度最快、成本*的模型。Transformer 功能強大、實用且利潤豐厚,足以在替代品出現之前主宰每個主要的 AI 計算市場:
Transformer 為每一種大型 AI 產品提供動力:從代理到搜索再到聊天。AI 實驗室已花費數億美元進行研發,以優化 GPU 以適應 Transformer。當前和下一代*進的模型都是 Transformer。
隨着模型在未來幾年從 10 億美元擴展到 100 億美元再到 1000 億美元的訓練運行,測試新架構的風險飆升。與其重新測試縮放定律和性能,不如花時間在 Transformer 之上構建功能,例如多token預測。
當今的軟件堆棧針對 Transformer 進行了優化。每個流行的庫(TensorRT-LLM、vLLM、Huggingface TGI 等)都有用於在 GPU 上運行 Transformer 模型的特殊內核。許多基於 transformer 構建的功能在替代方案中都不容易獲得支持(例如推測解碼、樹搜索)。
未來的硬件堆棧將針對 transformer 進行優化。NVIDIA 的 GB200 特別支持 transformer(TransformerEngine)。像 Sohu 這樣的 ASIC 進入市場標誌着不歸路。Transformer 殺手在 GPU 上的運行速度需要比 transformer 在 Sohu 上運行的速度更快。如果發生這種情況,我們也會為此構建一個 ASIC!
兩個哈佛輟學生創立芯片公司
隨着生成式人工智能觸及越來越多的行業,生產運行這些模型的芯片的公司受益匪淺。尤其是英偉達,其影響力巨大,佔據了人工智能芯片市場約70% 至 95% 的份額。從Meta到微軟,雲提供商都在英偉達 GPU 上投入了數十億美元,擔心在生成式人工智能競賽中落后。
因此,生成式人工智能供應商對現狀不滿也是可以理解的。他們的成功很大程度上取決於主流芯片製造商的意願。因此,他們與機會主義風險投資公司一起,正在尋找有前途的新興企業來挑戰人工智能芯片巨頭。
Etched是眾多爭奪一席之地的另類芯片公司之一,但它也是最有趣的公司之一。Etched 成立僅兩年,由兩位哈佛輟學生 Gavin Uberti(前OctoML和前Xnor.ai員工)和 Chris Zhu 創立,他們與 Robert Wachen 和前賽普拉斯半導體公司首席技術官 Mark Ross 一起,試圖創造一種可以做一件事的芯片:運行 AI 模型。
這並不罕見,許多初創公司和科技巨頭都在開發專門運行人工智能模型的芯片,也稱為推理芯片。Meta 有MTIA,亞馬遜有Graviton和Inferentia等等。但 Etched 的芯片的獨特之處在於它們只運行一種類型的模型:Transformers。
Transformer 由谷歌研究團隊於 2017 年提出,目前已成為主流的生成式 AI 模型架構。
Transformer 是 OpenAI 視頻生成模型Sora的基礎。它們是 Anthropic 的Claude和谷歌的Gemini等文本生成模型的核心。它們還為最新版本的 Stable Diffusion等藝術生成器提供動力。
在一篇新博客文章中,Etched創始人表示,該公司在 2022 年 6 月對人工智能進行了*的押注,當時它押注一種新的人工智能模型將接管世界:Transformer。
在Etched看來,五年內,AI 模型在大多數標準化測試中都比人類更聰明。
怎麼會這樣?因為 Meta 訓練 Llama 400B(2024 SoTA,比大多數人類更聰明)所用的計算量是 OpenAI 在 GPT-2(2019 SoTA)上所用的 50,000 倍。
通過為 AI 模型提供更多計算和更好的數據,它們會變得更聰明。規模是幾十年來*持續有效的祕訣,每家大型 AI 公司(谷歌、OpenAI / 微軟、Anthropic / 亞馬遜等)都將在未來幾年投入超過 1000 億美元來保持規模。我們正處於有史以來*的基礎設施建設中。
但再擴大 1,000 倍將非常昂貴。下一代數據中心的成本將超過一個小國的 GDP。按照目前的速度,我們的硬件、電網和錢包都跟不上。
我們並不擔心數據耗盡。無論是通過合成數據、註釋管道還是新的 AI 標記數據源,我們都認為數據問題實際上是推理計算問題。Mark Zuckerberg4、Dario Amodei5 和 Demis Hassabis6似乎同意這一觀點。
「2022 年,我們打賭Transformer將統治世界,」Etched 首席執行官 Uberti 在接受 TechCrunch 採訪時表示。「在人工智能的發展中,我們已經達到了一個節點,性能優於通用 GPU 的專用芯片是不可避免的——全世界的技術決策者都知道這一點。」
當時,AI 模型種類繁多,有用於自動駕駛汽車的 CNN、用於語言的 RNN 以及用於生成圖像和視頻的 U-Net。然而,Transformer(ChatGPT 中的「T」)是*個可以擴展的模型。
首席執行官 Gavin Uberti 在博文中表示:「我們打賭,如果智能隨着計算不斷擴展,幾年之內,公司將在 AI 模型上投入數十億美元,所有模型都在專用芯片上運行。」「我們花了兩年時間打造了世界上*款Transformer專用芯片 (ASIC) Sohu。我們將Transformer架構刻錄到我們的芯片中,我們無法運行傳統的 AI 模型:為您的 Instagram 提要提供支持的 DLRM、來自生物實驗室的蛋白質摺疊模型或數據科學中的線性迴歸。」
一顆名為「sohu」的4nm芯片
Etched 的芯片名為 Sohu,是一款 ASIC(專用集成電路)。Uberti 聲稱,Sohu 採用臺積電的 4nm 工藝製造,可以提供比 GPU 和其他通用 AI 芯片更好的推理性能,同時消耗更少的能源。
Uberti 表示:「在運行文本、圖像和視頻轉換器時,Sohu 的速度甚至比 Nvidia 的下一代 Blackwell GB200 GPU 快一個數量級,而且成本更低。一臺 Sohu 服務器可取代 160 個 H100 GPU。……對於需要專用芯片的企業*來説,Sohu 將是一個更經濟、更高效、更環保的選擇。」
Uberti 補充道:「我們也無法運行 CNN、RNN 或 LSTM。但對於 transformer 來説,Sohu 是有史以來最快的芯片。它甚至沒有競爭對手。Sohu 的速度甚至比 Nvidia 的下一代 Blackwell (GB200) GPU 快一個數量級,而且更便宜,適用於文本、音頻、圖像和視頻 transformer。」
Uberti表示,自他們成立以來,每個主要的 AI 模型(ChatGPT、Sora、Gemini、Stable Diffusion 3、Tesla FSD 等)都變成了 transformer。不過,如果 transformer 突然被 SSM、monarch 混合器或任何其他類型的架構取代,Etched 的芯片將毫無用處。
「但如果我們是對的,Sohu將改變世界,」Uber信心滿滿地説。
通過專業化,Sohu獲得了前所未有的性能。一臺 8xSohu 服務器每秒可以處理超過 500,000 個 Llama 70B token。
據介紹,Sohu 僅支持轉換器推理,無論是 Llama 還是 Stable Diffusion 3。Sohu 支持當今的所有模型(Google、Meta、Microsoft、OpenAI、Anthropic 等),並且可以處理對未來模型的調整。
由於 Sohu 只能運行一種算法,因此可以刪除絕大多數控制流邏輯,從而允許它擁有更多的數學塊。因此,Sohu 擁有超過 90% 的 FLOPS 利用率(而使用 TRT-LLM 的 GPU7 上約為 30%)。
強悍性能,如何做到?
Sohu是如何實現這一切的?有幾種方法,但最明顯(也是最直觀)的方法是簡化推理硬件和軟件管道。由於Sohu不運行非transformer模型,因此 Etched 團隊可以取消與transformer無關的硬件組件,並削減傳統上用於部署和運行非transformer的軟件開銷。
Etched在一篇博客文章中表示,NVIDIA H200 擁有 989 TFLOPS 沒有稀疏性的 FP16/BF16 計算能力。這是*進的(甚至比谷歌的新 Trillium 芯片還要好),而 2025 年推出的 GB200 的計算能力僅增加了 25%(每個die 1250 TFLOPS)。
由於 GPU 的絕大部分區域都用於可編程性,因此專注於transformer可以讓您進行更多的計算。您可以從*原理向自己證明這一點:
構建單個 FP16/BF16/FP8 乘加電路需要 10,000 個晶體管,這是所有矩陣數學的基石。H100 SXM 有 528 個張量核心,每個都有 4 × 8 × 16 FMA 電路。乘法告訴我們 H100 有 27 億個專用於張量核心的晶體管。
但 H100 有 800 億個晶體管12!這意味着 H100 GPU 上只有 3.3% 的晶體管用於矩陣乘法!
這是 NVIDIA 和其他靈活 AI 芯片經過深思熟慮的設計決定。如果您想支持各種模型(CNN、LSTM、SSM 等),沒有比這更好的了。
通過僅運行 Transformer,Etched可以在芯片上安裝更多的 FLOPS,而無需降低精度或稀疏性。
有觀點認為,推理的瓶頸是內存帶寬,而不是計算?事實上,對於像 Llama-3 這樣的現代模型來説,答案是顯而易見的!
讓我們使用 NVIDIA 和 AMD 的標準基準 :2048 個輸入tokens和 128 個輸出tokens。大多數 AI 產品的prompts 比completions時間長得多(即使是新的 Claude 聊天在系統提示中也有 1,000 多個tokens)。
在 GPU 和Sohu上,推理是分批(batches)運行的。每個批次都會加載所有模型權重一次,並在批次中的每個標記中重複使用它們。通常,LLM 輸入是計算密集型的,而 LLM 輸出是內存密集型的。當我們將輸入和輸出token與連續批處理相結合時,工作負載會變得非常受計算密集型。
下面是 LLM 連續批處理的一個例子。在這里,我們正在運行具有四個輸入標記和四個輸出標記的序列;每種顏色都是不同的序列。
我們可以擴展相同的技巧來運行具有 2048 個輸入token和 128 個輸出token的 Llama-3-70B。讓每個批次包含一個序列的 2048 個輸入token和 127 個不同序列的 127 個輸出tome。
如果我們這樣做,每個批次將需要大約 (2048 + 127) × 70B 參數 × 每個參數 2 字節 = 304 TFLOP,而只需加載 70B 參數 × 每個參數 2 字節 = 140 GB 的模型權重和大約 127 × 64 × 8 × 128 × (2048 + 127) × 2 × 2 = 72GB 的 KV 緩存權重。這比內存帶寬要多得多:H200 需要 6.8 PFLOPS 的計算才能*限度地利用其內存帶寬。這是利用率為 100% 的情況 - 如果利用率為 30%,則需要 3 倍以上的內存。
由於Sohu擁有如此多的計算能力和極高的利用率,我們可以運行巨大的吞吐量,而不會出現內存帶寬瓶頸。
而在現實世界中,批次要大得多,輸入長度各不相同,請求以泊松分佈(Poisson distribution)到達。這種技術在這些情況下效果更好,但我們在此示例中使用 2048/128 基準,因為 NVIDIA 和 AMD 使用它。
衆所周知,在 GPU 和 TPU 上,軟件是一場噩夢。處理任意 CUDA 和 PyTorch 代碼需要非常複雜的編譯器。第三方 AI 芯片(AMD、Intel、AWS 等)在軟件上花費了數十億美元,但收效甚微。
但由於Sohu只運行 transformer,我們只需要為 transformer 編寫軟件!
大多數運行開源或內部模型的公司都使用特定於 transformer 的推理庫,如 TensorRT-LLM、vLLM 或 HuggingFace 的 TGI。這些框架非常僵化 - 雖然你可以調整模型超參數,但實際上不支持更改底層模型代碼。但這沒關係 - 因為所有 transformer 模型都非常相似(甚至是文本/圖像/視頻模型),調整超參數就是你真正需要的。
雖然這支持 95% 的 AI 公司,但*的 AI 實驗室採用定製。他們有工程師團隊手動調整 GPU 內核以擠出稍微更多的利用率,逆向工程哪些寄存器對每個張量核心的延迟*。
有了 Etched,您無需再進行逆向工程 - 因為Etched的軟件(從驅動程序到內核再到服務堆棧)都將是開源的。如果您想實現自定義轉換層,您的內核向導可以自由地這樣做。
Etched將成為全球*
Uberti説,每一個大型同質計算市場最終都會以專用芯片結束:網絡、比特幣挖掘、高頻交易算法都被硬編碼到硅片中。
這些芯片的速度比 GPU 快幾個數量級。沒有一家公司使用 GPU 來挖掘比特幣——他們根本無法與專業的比特幣礦工競爭。人工智能也會發生這種情況。Uberti 説,由於涉及數萬億美元,專用是不可避免的。
「我們認為,絕大部分支出(和價值)將用於具有超過 10 萬億個參數的模型。由於連續批處理的經濟性,這些模型將在數十個 MegaClusters 之一的雲端運行,」Uberti 説。「這種趨勢將反映芯片工廠:過去有數百個廉價的低分辨率工廠,而現在,高分辨率工廠的建設成本約為 200 億至 400 億美元。世界上只有少數幾個 MegaFab,它們都使用非常相似的底層架構(EUV、858 平方毫米掩模版、300 毫米晶圓等)。」
Etched 表示,Transformer 的轉換成本非常高。即使發明了一種比 Transformer 更好的新架構,重寫內核、重建推測解碼等功能、構建新的專用硬件、重新測試縮放定律以及重新培訓團隊的阻力也是巨大的。Uberti 表示,這種情況十年內只會發生一兩次,就像芯片領域發生的情況一樣:光刻技術、掩模版/晶圓尺寸和光刻膠成分的變化確實會繼續發生,但變化速度非常緩慢。
「我們擴展 AI 模型的程度越高,我們就越會集中於模型架構。創新將發生在其他地方:推測解碼、樹搜索和新的採樣算法,」Uberti 説。「在一個模型訓練成本為 100 億美元、芯片製造成本為 5000 萬美元的世界里,專用芯片是不可避免的。*製造它們的公司將獲勝。」
Etched 斷言,從來沒有人制造過特定架構的 AI 芯片。即使在去年,這也毫無意義。特定架構的芯片需要巨大的需求和對其持久力的堅定信念。
Uberti表示:「我們把賭注押在了Transformer 上,這兩個要求都正在成為現實。」
該公司指出,市場需求已達到前所未有的水平。Transformer 推理市場剛開始時不到 5000 萬美元,而現在已超過 50 億美元。所有大型科技公司都在使用 Transformer 模型(OpenAI、谷歌、亞馬遜、微軟、Facebook 等)。
Uberti 表示,他們正在看到架構融合:過去,AI 模型會發生很大變化。但自 GPT-2 以來,*進的模型架構幾乎保持不變。OpenAI 的 GPT 系列、Google 的 PaLM、Facebook 的 LLaMa,甚至 Tesla FSD 都是Transformer 。
Uberti 表示,公司正以極快的速度努力將Sohu變成現實。
Uberti 強調:「公司正朝着有史以來最快的速度推進,從架構到驗證硅片,以用於 4nm 光罩大小的芯片。」「我們直接與臺積電合作,並從兩家*供應商處雙源採購 HBM3E。我們從 AI 和基礎模型公司獲得了數千萬美元的預訂,並且擁有充足的供應鏈能力來擴展。如果我們的賭注正確並且我們執行,Etched 將成為世界上*的公司之一。」
該公司重申,如果這一預測正確,Sohu將改變世界。
如今,AI 編碼代理的計算成本為 60 美元/小時,並且需要數小時才能完成任務,Gemini 需要 60 多秒才能回答有關視頻的問題16。編碼代理的成本高於軟件工程師,並且需要數小時才能完成任務。視頻模型每秒生成一幀,甚至當 ChatGPT 註冊用户達到 1000 萬時(僅佔全球的 0.15%),OpenAI 也耗盡了 GPU 容量。
我們無法解決這個問題 - 即使我們繼續以每兩年 2.5 倍的速度製造更大的 GPU,也需要十年才能實現實時視頻生成。
你設想一下,如果人工智能模型一夜之間速度提高 20 倍且成本降低,會發生什麼?有了Sohu,實時視頻、音頻、代理和搜索終於成為可能。Uberti 表示,每款 AI 產品的單位經濟效益將在一夜之間發生逆轉。
據透露,該公司的早期客户已經預訂了數千萬美元的硬件。
在被問到 Etched 這樣的小公司如何能擊敗 Nvidia。Etched 首席運營官聯合創始人 Robert Wachen 在給 VentureBeat 的電子郵件中説:
「過去,AI 計算市場是分散的:人們使用不同類型的模型,例如 CNN、DLRM、LSTM、RNN 以及跨領域的數十種其他模型。每種架構的支出都在數千萬到數億美元之間,而這些工作負載的市場足夠大,通用芯片 (GPU) 可以勝出,」Wachen 説道。
他指出,市場正在迅速整合為一種架構:Transformer。在人們花費數十億美元購買變壓器模型、定製芯片花費 5000 萬至 1 億美元的世界里,專用芯片是不可避免的。
「我們的芯片在大多數工作負載下都無法擊敗 GPU——我們無法支持它們。但是,對於變壓器推理(為每種主要的「生成式 AI」產品提供支持),我們將清除市場。通過如此專業化,我們的芯片比下一代 Blackwell GPU 快一個數量級,」Wachen 説道。
參考鏈接
https://venturebeat.com/ai/etched-raises-120m-in-challenge-to-nvidia-in-ai-with-transformer-chips/
https://www.etched.com/announcing-etched
https://techcrunch.com/2024/06/25/etched-is-building-an-ai-chip-that-only-runs-transformer-models/
【本文由投資界合作伙伴微信公眾號:半導體行業觀察授權發佈,本平臺僅提供信息存儲服務。】如有任何疑問,請聯繫(editor@zero2ipo.com.cn)投資界處理。