繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

Groq對實時人工智能推理的需求每周加速

2024-04-02 20:30

在操場上運行GroqCloud的70,000名開發人員和運行在LPU推理引擎上的19,000個新應用程序

加利福尼亞州芒廷維尤,2024年4月2日/美通社/--創新型人工智能解決方案公司Groq今天宣佈,超過70,000名新開發人員正在使用GroqCloud,超過19,000個新應用程序通過Groq API在LPU推理引擎上運行。自3月1日推出以來,GroqCloud的快速遷移表明了對實時推理的明確需求,因為開發人員和公司正在為他們的生成性和對話式AI應用尋求更低的延迟和更大的吞吐量。

GroqCloud總經理Sunny Madra表示:「從人工智能的影響者和初創企業,到政府機構和大型企業,開發者社區對GroqCloud的熱情歡迎確實令人興奮。」「人們對GroqCloud的興趣空前高漲,我對此並不感到意外。很明顯,開發人員迫切需要低延迟的人工智能推理功能,我們很高興看到它被用來將創新的想法變成現實。每隔幾個小時,就會有一款使用我們的API的新應用程序發佈或更新。」

70,000多名新開發人員正在使用GroqCloud,19,000多個新應用程序在LPU推理引擎上運行

到2027年,人工智能芯片的總可尋址市場(TAM)預計將達到1194億美元。如今,約40%的人工智能芯片被用於推理,到2027年,僅這一點就將使用於推理的芯片的TAM達到約480億美元。一旦應用程序達到成熟,它們通常會將90%-95%的資源分配給推理,這表明隨着時間的推移,市場會大得多。世界纔剛剛開始探索人工智能帶來的可能性。隨着更多的應用程序和產品推向市場,這一比例可能會增加,這使其成為一個極其保守的估計。由於全球幾乎每個行業和政府都希望利用生成式和/或對話式人工智能,人工智能芯片的TAM,特別是致力於推理的系統,似乎是無限的。

Groq首席執行官兼創始人喬納森·羅斯表示:「GPU非常棒。正是它們讓人工智能走到了今天。」「當客户問我他們是否還應該購買GPU時,我會説,‘當然,如果你正在進行培訓,因為對於你將用於培訓的5%-10%的資源來説,GPU是最優的,但對於你將用於推理的90%-95%的資源,以及你需要實時速度和合理的經濟性的地方,我們來談談LPU。正如諺語所説,’讓我們走到這一步的東西不會把我們帶到那里。‘開發人員需要低延迟推理。LPU是更低延迟的推動者,這就是驅使他們使用GroqCloud的原因。」

GPU非常適合訓練模型、批量批處理和運行可視化繁重的工作負載,而LPU則專門運行大型語言模型(LLM)和其他AI推理工作負載的實時部署,以提供可操作的見解。LPU通過提供所需的實時推理來填補市場空白,從而通過Groq API以成本和能源高效的方式使生成性人工智能成為現實。

芯片設計與架構問題實時人工智能推理是一個專門的系統問題。硬件和軟件在速度和延迟方面都起着作用。再多的軟件也無法克服芯片設計和架構造成的硬件瓶頸。

首先,Groq編譯器是完全確定的,並在需要時精確地調度每次內存加載、操作和包傳輸。LPU推理引擎無需等待尚未填滿的緩存、因衝突而重新發送數據包或暫停內存加載-所有這些都困擾着使用GPU進行推理的傳統數據中心。相反,Groq編譯器計劃每一次操作和傳輸,直到循環,確保儘可能高的性能和最快的系統響應。

其次,LPU基於單核確定性體系結構,這使得LLM在設計上比GPU更快。Groq LPU推理引擎依靠SRAM作為內存,比GPU使用的HBM內存快100倍。此外,HBM是動態的,每秒必須刷新十幾次。雖然與較慢的內存速度相比,對性能的影響不一定很大,但它確實會使程序優化變得複雜。

無CUDA必備的GPU架構複雜,難以高效編程。進入:庫達。CUDA抽象了複雜的GPU體系結構,使編程成為可能。GPU還必須創建高度調優的CUDA內核來加速每個新型號,這反過來需要大量的驗證和測試,從而增加了更多的工作並增加了芯片的複雜性。

相反,由於LPU的張量流體系結構,Groq LPU推理引擎不需要CUDA或內核-本質上是低級硬件指令。LPU設計非常簡單,因為Groq編譯器直接將操作映射到LPU,而無需任何手動調優或實驗。此外,Groq以高性能快速編譯模型,因為它不需要為新操作創建自定義「內核」,這在推理速度和延迟方面阻礙了GPU。

通過高效的設計LLM來確定人工智能碳足跡的優先順序估計每年都會以10倍的速度增長,這使得使用GPU時人工智能的輸出成本高得令人難以置信。雖然擴大規模會產生一些經濟效果,但在GPU架構中工作時,能源效率將繼續是一個問題,因為對於每個計算任務,數據仍然需要在芯片和HBM之間來回移動。不斷地洗牌數據會迅速燃燒能量焦耳,產生熱量,並增加冷卻需求,這反過來又需要更多能源。

瞭解能源消耗和冷卻成本在計算成本中的基本作用,Groq設計了芯片硬件,使其本質上是LPU中的AI令牌工廠,以最大限度地提高效率。因此,當前一代LPU的能效比目前可用的最節能的GPU高10倍,因為裝配線方法最大限度地減少了芯片外數據流。Groq LPU推理引擎是唯一可用的解決方案,它利用高效設計的硬件和軟件系統來滿足當今的低碳足跡要求,同時仍然提供無與倫比的用户體驗和生產率。

供應鏈面臨哪些挑戰?從第一天起,Groq就意識到對有限材料的依賴,以及複雜的全球供應鏈將增加風險,並阻礙增長和收入。Groq通過設計一種不依賴4納米硅來提供創紀錄的速度或HBM的芯片,從而繞過了供應鏈挑戰,這是極其有限的。事實上,當前一代LPU是由14納米硅製成的,在運行Llama-270B時,它一致地每用户每秒提供300個令牌。LPU是唯一完全在北美設計、工程和製造的人工智能芯片。

Groq是一家生成式人工智能解決方案公司,也是市場上最快的語言處理加速器LPU推理引擎的創建者。它的架構是從頭開始的,以實現低延迟、高能效和可重複的大規模推理性能。客户依賴LPU推理引擎作為端到端解決方案,以10倍的速度運行大型語言模型和其他生成AI應用程序。由LPU推理引擎驅動的Groq系統可供購買。客户還可以通過GroqCloud中的API利用LPU推理引擎進行實驗和生產就緒應用程序,購買令牌即服務。Google Tensor Processing Unit的發明者喬納森·羅斯(Jonathan Ross)創立了Groq,目的是在構建人工智能經濟的同時保護人類的能動性。在groq.com體驗Groq速度。

[email protected][email protected]

來源Groq

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。