繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

LPU推理引擎獲資金認可! 正面硬剛英偉達的Groq估值猛增 一年內幾乎翻倍

2025-09-18 11:27

智通財經APP獲悉,聚焦於AI芯片的初創公司Groq在當地時間周三證實,該初創公司經歷新融資后估值大約69億美元,在新一輪融資中籌集了7.5億美元。該公司乃「AI芯片霸主」英偉達(NVDA.US)的最大競爭對手之一,論競爭對手們AI芯片領域的市場規模,可能僅次於美國芯片巨頭博通與AMD。

這一最新的融資數據可謂高於7月融資傳聞流出時的數字。當時有不少媒體報道稱,本輪融資約為6億美元,估值接近60億美元。

與英偉達的最大營收與利潤貢獻業務部門——數據中心業務類似,Groq聚焦於向全球各大數據中心以及企業平臺銷售最核心AI算力基礎設施——AI芯片集羣,曾於2024年8月以28億美元估值融資6.4億美元,最新的融資也使得該AI芯片初創公司的估值在短短的一年內翻了兩倍多。

PitchBook的預測數據顯示,Groq今年迄今已累計融資超過30億美元,融資規模堪比Anthropic等AI超級獨角獸。

LPU從技術路線角度來看,是為推理場景定製的 AI ASIC,而非通用GPU,該公司將系統形態GroqCard/GroqNode/GroqRack,明確歸類為定製推理ASIC。

Groq是何方神聖?

Groq 之所以在全球資本市場炙手可熱,主要因為其致力於打破份額高達90%的AI芯片超級霸主英偉達對科技行業AI算力基礎設施的強勢控制。

Groq所開發的芯片並非通常為AI訓練/推理系統提供動力的AI GPU。相反,Groq將其稱為 LPU(language processing units,語言處理單元),並稱其硬件為「推理引擎」——專為極速高效率運行AI大模型而優化的專用高性能推理型計算機,從技術路線來看和博通AI ASIC以及谷歌TPU屬於同類AI芯片技術路線。

其產品面向開發者和企業,既可作為雲計算算力服務提供,也可作為本地部署的硬件集羣提供。Groq本地硬件聚焦於本地AI服務器機架,配備其集成硬件/軟件節點的堆棧。雲端與本地硬件均可運行風靡全球AI大模型的所有更新迭代版本,例如來自 Meta、DeepSeek、Qwen、Mistral、Google和OpenAI所開發的AI模型。Groq表示,其LPU產品在成本顯著低於核心替代方案的情況下,能夠保持,或在某些情況下意外提升AI大模型推理運行效率。

Groq 的創始人Jonathan Ross 在AI芯片領域堪稱「超級技術大拿」。Ross曾經在美國科技巨頭谷歌的芯片開發部門從事其Tensor Processing Unit(即所謂「TPU」)芯片的完整開發,該類AI ASIC路徑的芯片是谷歌為高負載AI計算任務專門設計的專用高性能處理器。

谷歌TPU於2016年發佈,與Groq走出行業隱身期是同一年。谷歌TPU算力集羣已經成長為給谷歌雲平臺Google Cloud 的AI訓練/推理算力服務提供核心動力的硬件體系,在谷歌數據中心的規模僅次於英偉達AI GPU算力集羣。

谷歌近日披露了Ironwood TPU(TPU v6)的最新細節,展現出令人矚目的性能提升。與TPU v5p相比,Ironwood的峰值FLOPS性能提升足足10倍,功效比提升5.6倍,與谷歌2022年推出的TPU v4相比,Ironwood的單芯片算力提升甚至超過16倍。

性能對比顯示:谷歌Ironwood的4.2 TFLOPS/瓦功效比僅略低於英偉達B200/300 GPU的4.5 TFLOPS/瓦。摩根大通評論稱:這一性能數據突出表明,先進AI的專用AI ASIC芯片正快速縮小與處於市場領先地位AI GPU的性能差距,推動超大規模雲計算服務商加大對於更具性價比的定製化ASIC項目的投資。

Groq表示,目前其為超過200萬名開發者的AI應用提供算力集羣支持,而在該公司一年前接受TechCrunch 採訪時,這一數字僅僅為大約35萬名開發者。

據瞭解,該AI芯片初創公司的新一輪融資由投資公司 Disruptive 領投,全球資管巨頭BlackRock,以及Neuberger Berman、Deutsche Telekom Capital Partners 等參投。還包括三星(Samsung)、思科(Cisco)、D1和Altimeter 在內的現有投資者也參與了本輪融資。

專心聚焦於AI推理領域的LPU

Groq的LPU是為推理(尤其是大語言模型 LLM 推理)而生的專用加速器,核心架構是Groq自主開發的 TSP(Tensor Streaming Processor,張量流式處理器):以靜態、可預測(deterministic)的流式數據通路替代傳統AI GPU的「線程/內核/緩存」範式,強調低延迟、穩定時延與小批量高吞吐。

Groq所開發的LPU芯片採用大容量片上SRAM(約 220MB),超高片上帶寬(官方資料示例至 80TB/s),並以編譯器在時間與空間上顯式調度算子與數據流,幾乎不依賴硬件中的「反應式」部件(如緩存/仲裁器/回放機制)。

通過 TSP 流式、靜態可預測的編譯時調度+ 片上高帶寬SRAM供算,在低/零批量 LLM 推理里,LPU提供相較AI GPU集羣更低的時延、更穩定的吞吐與潛在更高的能效/交付效率。但在大模型訓練、動態工作負載與生態完整度方面,聚焦於通用的GPU集羣仍具系統性優勢。

值得注意的是,對於那些深度聚焦「AI大模型訓練」與「超大批量吞吐」的綜合型AI工作負載,英偉達AI GPU生態(CUDA/高帶寬顯存/NVLink等)仍全面佔優,LPU的優勢主要在交互式/實時推理與低延迟的LLM推理算力工作負載。

尤其在batch 很小(甚至 batch=1)的 LLM 場景,LPU 不需要「堆 batch 才跑得滿」,單位芯片的 tokens/s 更高、調度開銷更低,能滿足交互式產品對「快回話」的要求。Groq的LPU在大容量片上 SRAM直接供算,官方資料展示片上帶寬可達 80TB/s,而 GPU 需頻繁訪問片外 HBM,因此LPU大幅減少「算存」往返,能夠提高AI大模型運行效率並具備極高的能效比。LPU確定性執行帶來更平滑的功耗曲線,配合精簡數據路徑,推理每token的能耗更低,有報道稱 LPU 在等效推理上功耗約為常見GPU的三分之一。

因此,AI ASIC雖然無法全面大規模取代英偉達,但是市場份額勢必將愈發擴張,而不是當前英偉達AI GPU一家獨大局面。在可標準化的主流推理與部分訓練(尤其是持續性長尾訓練/微調)上,定製化AI ASIC 的「單位吞吐成本/能耗」顯著優於純GPU方案;而在快速探索、前沿大模型訓練與多模態新算子試錯上,英偉達AI GPU仍是主力。因此當前在AI工程實踐中,科技巨頭們愈發傾向採用「ASIC 扛常態化、GPU 扛探索峰值/新模型開發」的混合架構來最小化 TCO。

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。