繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

芯片公司圍剿英偉達

2025-02-13 13:23

英偉達是AI芯片市場遙遙*的贏家,這是毫無爭議的。但現在,多個廠商正在通過各種方式,向英偉達發起衝鋒。

AI 芯片初創公司融資,與 Nvidia 競爭

一家旨在與 Nvidia (競爭的初創芯片製造商周二表示,已融資 2,350 萬美元,用於擴大其美國產人工智能芯片的生產。

參與此輪融資的投資者包括以支持埃隆·馬斯克的公司而聞名的 Valor Equity Partners、Atreides Management、Flume Ventures 和 Resilience Reserve。

Positron 的芯片用於推理,即使用 AI 模型的階段,而不是用於訓練 AI 模型。目前,對訓練芯片的需求更高,但分析師預測,隨着更多 AI 應用的部署,對推理芯片的需求可能會超過訓練芯片。

隨着企業努力應對 AI 資本支出、不斷上升的成本和供應商鎖定,Positron 為客户提供了高性能、節能的替代方案。Positron 的 Atlas 系統目前在推理方面實現了比 Nvidia H100 GPU 更高的 3.5 倍每美元性能和 3.5 倍的功率效率。Positron 的 FPGA 服務器利用內存優化架構,帶寬利用率達到 93% 以上(而 GPU 僅為 10-30%),支持萬億參數模型,同時提供與 Hugging Face 和 OpenAI API 的即插即用兼容性。與 H100/H200 設置相比,這些系統的推理速度提高了 70%,功耗降低了 66%,將數據中心資本支出削減了 50%。

除了規格之外(在受全球政治和經濟緊張局勢影響的生態系統中,這些規格同樣重要),該公司的*代 Atlas 系統完全在美國設計、製造和組裝。

Nvidia 挑戰者 Groq 融資15 億美元

美國人工智能芯片製造商 Groq 報告稱,該公司已獲得沙特阿拉伯 15 億美元的承諾。藉助這筆資金,這個中東國家希望擴大先進人工智能芯片的供應。

這家硅谷公司由前谷歌員工、TPU 的創造者喬納森·羅斯創立,以生產優化速度和執行預訓練模型命令的推理芯片而聞名。

分析師認為 Groq 是Nvidia 的潛在競爭對手。后者目前是 AI 革命的*贏家。憑藉 Groq 及其自主研發的語言處理單元 (LPU),一個強大的競爭對手已經醖釀已久。15 億美元投資的消息進一步證實了這一觀點。

LPU 計劃於 2024 年初推出。雖然其他潛在的 Nvidia 競爭對手專注於訓練和推理,但 Groq 的目標非常明確:Groq 是快速 AI 推理。通過與 OpenAI 兼容的 API 鏈接,該公司旨在吸引用户遠離使用 GPT-4o 和 o1 等封閉模型。

語言處理單元 (LPU) 的開發由前谷歌 TPU 設計師 Jonathan Ross 領導。LPU 於 2024 年初推出,可在線試用。與其他潛在的 Nvidia 競爭對手瞄準訓練和推理相比,Groq 的目標很明確:「Groq 是快速 AI 推理」。得益於與 OpenAI 兼容的 API 連接,該公司的目標是讓用户不再使用 GPT-4o 和 o1 等封閉模型。那麼,與 Meta 和 DeepSeek 等公司合作的機會就很大了。

這已經表明,Groq 可能並不打算直接與 Nvidia 競爭。自從我們一年前報道該公司以來,我們注意到像 Groq 這樣的公司更願意直接針對最終用户,而將硬件本身抽象出來。最終目標是儘可能降低延迟。如果您只是想在沒有本地硬件的情況下快速運行 Llama 3.3 70B,那麼這可能是正確的產品。鑑於 Groq 沒有提供有關主要硬件交易的明確信息,我們只能假設除了國家實驗室的實驗和通過其 API 接觸 Groq 的客户之外,這樣的交易並不多。

然而,LPU 是另一個調整 GPU 以適應企業實際計算需求的例子。「Groq LPU 架構始於軟件優先原則」,該公司表示,這導致了專用於線性代數的芯片的誕生——「人工智能推理的主要要求」。實際上,編譯器已經確定了芯片佈局,沒有路由器或控制器阻礙硬件與自身通信。用 Groq 的話來説,LPU 是一條「裝配線」或「傳送帶」,將數據從其各種片上內存模塊和芯片中轉移出來。這是爲了避免該公司所謂的 Nvidia 的「中心輻射」方法所固有的 GPU 開銷。

最終的結果是,該芯片能夠達到 750 TOPS。每個芯片包含 230 MB 的 SRAM 和 80 TB/s 的片上內存帶寬。鑑於一個 GroqChip 只是 GroqRack 計算集羣的一部分,這些基本規格最終並不是該公司最突出的。它最出名的就是快速推理。也許大規模的人工智能採用將使 Groq 找到自己的利基市場,並向世界展示它的成功。到目前為止,我們只能根據撰寫本文時對基於 Groq 的 LLM 發出的 1,425,093,318 個請求來判斷。

Meta 欲收購韓國 AI 芯片公司 Furiosa AI

據報道,Meta Platforms(Meta)正在考慮收購韓國AI半導體設計初創公司Furiosa AI。

11日(當地時間),美國經濟媒體《福布斯》援引消息人士的話報道稱,Meta 正在商談收購 Furiosa AI 事宜,談判最早可能在本月完成。

Furiosa AI 是一家設計數據中心 AI 半導體的無晶圓廠公司(專門從事半導體設計),由曾在三星電子和 AMD 任職的 CEO 白俊浩於 2017 年創立。繼 2021 年推出* AI 半導體「Warboy」后,該公司於去年 8 月推出了下一代 AI 半導體「Renegade」(RNGD)。

目前已有多家企業對Furiosa AI表現出興趣,據悉Meta是其中之一。有分析認為,Meta收購Furiosa AI是爲了鞏固自身AI芯片研發能力。

目前,Meta 正花費鉅額資金批量採購英偉達 AI 芯片,並與博通合作開發定製 AI 芯片。該公司今年計劃投資高達 650 億美元(約 93 萬億韓元),包括用於 AI 研究和新數據中心的建設。

Furiosa AI 迄今已籌集約 1.15 億美元(約 1671 億韓元),並於本月初從風險投資公司 Krit Ventures 獲得了額外的 20 億韓元投資。Naver 和 DSC Investment 參與了初始融資,據報道,首席執行官 Baek Joon-ho 持有該公司 18.4% 的股權。

OpenAI 自研芯片,挑戰 Nvidia

大型科技公司和人工智能初創公司仍然在很大程度上依賴 Nvidia 的芯片來訓練和運行*進的人工智能模型。然而,這種情況可能很快就會改變。OpenAI 正在帶頭開展一項大規模的全行業努力,將更便宜的定製人工智能加速器推向市場。如果成功,這一舉措可能會削弱 Nvidia 在人工智能硬件領域的主導地位,使該公司陷入更艱難的市場。

OpenAI 即將推出其*定製設計的 AI 芯片。路透社預計,該公司將在未來幾個月將芯片設計發送給臺積電進行驗證,然后於 2026 年開始量產。該芯片已進入流片階段,但 OpenAI 可能需要大量員工才能在 AI 加速器市場實現完全自給自足。

這款定製芯片由 Richard Ho 領導的「小型」內部團隊設計,他一年多前離開谷歌加入 OpenAI。這個 40 人團隊與 Broadcom 合作,Broadcom 是一家備受爭議的公司,在創建定製 ASIC 解決方案方面有着良好的記錄。兩家公司於 2024 年開始談判以芯片為重點的合作伙伴關係,最終目標是打造新的 AI 芯片。

業內消息人士稱,OpenAI 的設計既可以訓練也可以運行 AI 模型,但該公司最初只會將其有限量地用於 AI 推理任務。臺積電將在其 3nm 技術節點上製造最終的芯片,OpenAI 預計它將包含一定數量的高帶寬內存,就像任何其他主要的 AI(或 GPU)硅片設計一樣。

儘管在未來幾個月內 OpenAI 的芯片在公司基礎設施中只扮演次要角色,但在不久的將來,它可能會成為一股重大的顛覆性力量。新設計首先需要順利通過流片階段,而 Ho 的團隊需要修復在初始製造測試中發現的任何硬件錯誤。

許多科技公司都在積極努力用自己的定製 AI 加速解決方案取代 Nvidia 產品,但這家 GPU 製造商仍佔據着約 80% 的市場份額。微軟、谷歌、Meta 和其他大型科技巨頭正在僱用數百名工程師來解決芯片問題,而 OpenAI 在時間和員工規模方面都排在最后。

簡而言之,OpenAI 需要的不僅僅是目前由 Richard Ho 領導的開發 AI 芯片原型的小型內部團隊。在內部,該芯片項目被視為不斷發展的 AI 領域未來戰略舉措的關鍵工具。在等待臺積電的設計驗證的同時,OpenAI 工程師已經在計劃更先進的迭代,以實現更廣泛的應用。

英偉達的弱點,芯片公司羣起而攻之

雖然沒有哪家公司像 Nvidia 那樣,市值飆升至數萬億美元,但 IBM 和(最近)英特爾等公司知道強者確實會衰落。當一個人處於*時,自滿情緒就會滲透進來。當 Nvidia 故事中所有關鍵人物都早早退休享受豐厚的退休金時,可能會發生人才流失。

Nvidia 的另一個潛在弱點在於其實際產品:GPU。它們是功能極其強大的通用並行處理器。它們被設計為比世界上任何常見的處理器都更能處理並行化。然而,它們似乎已經達到了極限。最新的兩代芯片(Ada Lovelace 和 Blackwell)已經達到了臺積電的*標線尺寸。

換句話説,實際硅片無法超越其當前規模。Blackwell 應該通過融合芯片來解決這個問題,但這些已經導致了代價高昂的延迟。它們可能也會出現在下一代 Rubin 架構及以后的架構中。除此之外,GPU 的運行方式存在固有的開銷,而這些開銷是潛在競爭對手無法削減的。GPU 具有多面性,之所以被選為 AI 引擎,並不是因為它們被設計為高效處理 GenAI 工作負載,而是因為它們是手頭上最接近的計算單元,而且具有可擴展性。

推翻 Nvidia 的道路是採用特定的 GenAI 中心架構。這種芯片本質上是為 AI 革命量身定製的,擁有隨之而來的所有效率和速度。他們的主要優勢是簡單地擺脫所有 GPU 開銷並砍掉使 Nvidia 硬件如此通用的任何不必要的硅片。有些公司正在尋求這樣做。

一、Cerebras:晶圓級的「芯片上的模型」

Cerebras Systems做出的承諾確實很高。這家美國公司擁有「世界上最快的推理速度」——比 GPU 快 70 倍——已成為 Nvidia 最突出的替代品之一。如果有人認為 Blackwell 芯片很大,那就看看 Cerebras 的龐然大物吧。他們的處理器是「晶圓級」的。這意味着它們是矩形硅片,大小几乎與代工廠標準 300 毫米晶圓尺寸允許的大小相當。

單個 Cerebras WSE-3 帶有 44GB 的片上內存,大約是 Nvidia H100 的 880 倍。真正的勝利是它的內存帶寬。這通常是 GenAI 訓練和推理的瓶頸:每秒 21 PB,這個數字比 H100 高出七千倍。當然,這都是理論上的吞吐量。即使是所謂的同類基準測試也無法告訴您需要多少優化才能利用這些強大的規格。

Cerebras 的客户名單令人印象深刻,但更讓人對公司的未來充滿信心。Meta、Docker、Aleph Alpha 和納斯達克等公司都在使用該公司的技術。這些可能與 Cerebras 的一項或多項產品有關。這些範圍從包羅萬象的 AI 模型服務到按小時付費或按模型付費的方案,以進行大規模訓練、微調和/或推理。Llama 3.3 系列模型、Mistral 和 Starcoder 成為與 Cerebras 兼容的 LLM 的典範,並具有真正的影響力。

Cerebras 極有可能還需要超過迄今為止在六輪融資中籌集的 7.2 億美元的資金。考慮到 Nvidia 每年在研發上花費高達 800 億美元,其晶圓級競爭對手最終的 IPO 可能會縮小這一差距。最終,性能和效率也可能對 Cerebras 有利。

顯而易見的是,大量的片上內存使芯片設計比通過以太網或 Nvidia 自己的 InfiniBand 連接在一起的 GPU 集羣更接近 AI 模型所需的營養。畢竟,權重和激活就在那里,以接近光速的速度提供,而不必通過相對緩慢的互連。我們在這里談論的是納秒的差異,但仍然是數量級的。當你把幾個月的 AI 訓練和推理加在一起時,這種差距就變得巨大了。

二、SambaNova:數據是關鍵

另一個挑戰者則走上了一條不同的架構路線:SambaNova。四年前,在 ChatGPT 出現之前,該公司已經積累了 10 億美元。與 Cerebras 一樣,目前的產品也直指 Nvidia 的 GPU 解決方案,並突出了其固有的 AI 缺陷。與此同時, SambaNova將其 RDU(可重構數據流單元)列為「為下一代 AI 工作負載(稱為 Agentic AI)而構建」。換句話説,該公司圍繞模型的計算圖來組織其硬件,而不是依賴順序指令。

據稱,單個 SN40L RDU 的內存中可以容納「數百個模型」。這歸功於其龐大的 1.5 TB DRAM、64GB 同封裝 HBM 和超高速 520MB SRAM 緩存。單個 SN40L 節點可以以每秒超過 1TB 的速度傳輸數據。從表面上看,Nvidia 的最新一代 GPU Blackwell 已達到 8 TB/s 的速度。儘管如此,就目前情況而言,SambaNova 聲稱其數據流架構可實現地球上 Llama 3.1 405B 上最快的推理速度。據該公司稱,RDU 在處理數據方面的內置效率意味着,在「一小部分佔用空間」的情況下,可以獲得比傳統 GPU 更高的性能。

目前尚不清楚 SambaNova 在企業中的實際部署情況。阿貢國家實驗室和勞倫斯利弗莫爾等國家實驗室似乎很支持,一些專門針對醫療保健的公司也是如此。SambaNova 的最終目標是為企業提供本地 AI 培訓解決方案。儘管資金雄厚,但我們需要看到更多大牌公司涌向 SambaNova,才能更加確定其長期可行性——無論是否通過官方公告。

三、Etched:一款主宰市場的transformer ASIC

與變壓器模型最接近的類比是transformer ASIC。正如 Nvidia 挑戰者 Etched 對其 Sohu 芯片的描述,變壓器是「蝕刻在硅片上的」。它看起來很像 GPU,其 VRM 圍繞着硅片,呈矩形附加卡形狀。8 個變壓器似乎比 8 個 Nvidia B200 GPU 的吞吐量要小,更不用説 8 個早期的 H100 了。最終結果是:使用 Llama 70B 每秒可處理 500,000 個令牌。

144GB HBM3E 僅向單個「核心」提供數據,實際上是將 LLM 的架構轉移到硅片上。據說支持甚至達到 100 萬億個參數模型,遠遠超出了目前*進的 LLM。完全開源的軟件堆棧應該會吸引那些不願意堅持使用 Nvidia 封閉的 CUDA 花園的人。

至關重要的是,Etched 擊中了Nvidia 的痛處。如前所述,GPU 已經達到了極限。如果不採用一些技巧,比如構建通常達不到硅片速度的互連,它們就無法發展。而且,對於一些競爭對手來説,它們並不像 Etched 所做的那樣專注於算法。然而,有一件事仍不清楚,那就是搜狐究竟何時會出現。在 2024 年中期引起轟動之后,事情變得相當平靜。

四、AMD、英特爾、谷歌、亞馬遜……

我們應該注意其他一些更為人熟知的潛在 Nvidia 競爭對手。最明顯的是 AMD,它將其 Instinct MI 系列加速器打造為最接近 Nvidia GPU 的嵌入式產品。該公司的一些型號甚至將 Instinct 與 Epyc 集成到芯片設計中。這融合了 GPU 和 CPU 功能,可提供有前途的一體化 AI 套件。問題在於,其 ROCm 軟件似乎未被充分採用和重視。CUDA 占主導地位,Nvidia 也是如此。為什麼要為不像其競爭對手那樣無處不在的芯片開發框架或模型管道?

英特爾也面臨類似的問題,甚至更為嚴重。過去兩年,英特爾的 Gaudi GPU 產品線並未產生推動 AMD 股價上漲的那種需求。除此之外,隨着首席執行官帕特·基辛格 (Pat Gelsinger) 的離職,英特爾似乎失去了方向,在其他細分市場面臨嚴峻挑戰時,該公司在 AI 方面表現得毫無作為。如果沒有業績*優勢或 AMD 所擁有的挑戰者地位,改變命運的希望就很渺茫。

與此同時,雲提供商是 Nvidia *的客户之一。他們都希望擺脫對 AI 芯片巨頭的依賴。他們正在通過打造自己的替代方案來實現這一目標。谷歌多年來一直這樣做,其張量處理單元 (TPU) 是那些希望在雲端運行 AI 的人的*。然而,如果它們只能通過 Google Cloud 獲得,它們就永遠不會無處不在。

AWS 令人印象深刻的 Trainium 芯片和 Inferentia 系列也是如此,它們都可通過 AWS 獲得。這些產品也永遠不會在亞馬遜擁有的數據中心之外找到。谷歌和 AWS(微軟可能會效仿)需要構建一個開發人員堆棧來抽象架構。這通常意味着向 Nvidia 選項的可移植轉變永遠不會遙遠。畢竟,只有當他們本來就有可能選擇你的堆棧時,你才能吸引主要受眾。

結論:看不到盡頭

Nvidia 的替代品還有很多。我們可以繼續討論 Graphcore,自 2023 年出現可怕的消息以來,我們就沒有再談論過它。或者 Tenstorrent,它正在開源 RISC-V 架構上構建 AI 芯片。上面看到的選擇只是整個競爭環境的一小部分。在中國,也有寒武紀、海光、華為、燧原、摩爾線程、沐曦、天數智芯和壁仞等一批芯片公司對英偉達發起總攻。我們認為,在硬件領域,總有機會出現一個意想不到的候選人,就像 DeepSeek 在 AI 模型製作者競賽中所做的那樣。

我們將回到開始的地方。Nvidia 在 GenAI 市場牢牢佔據主導地位,尤其是在訓練方面。儘管上述 AI 芯片初創公司展示了高標準,但我們沒有看到任何可以阻止普通 AI 基礎設施決策者購買 Nvidia 的東西。任何替代方案都必須以出色的效率承諾、*的性能冠軍或兩者兼而有之來向前邁進。

即便如此,現任者也不會輕易放手。Nvidia 已經忙於滲透尚未涉足的 AI 領域。除了在消費機器領域的主導地位外,它現在還通過 Project Digits 提出了完全專用於 GenAI 的開發套件。與此同時,Jetson Nano 服務於邊緣部署。沒有競爭對手,甚至連 Nvidia 最接近的競爭對手 AMD 都沒有這種靈活性。這將幫助該公司渡過未來的風暴,即使它需要放棄 GPU 的全能地位才能取得進一步的成功。當你有 (約) 3 萬億美元的市值支持時,轉向專用的 transformer/GenAI 處理器是最容易做到的。

【本文由投資界合作伙伴微信公眾號:半導體行業觀察授權發佈,本平臺僅提供信息存儲服務。】如有任何疑問,請聯繫(editor@zero2ipo.com.cn)投資界處理。

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。