Groq对实时人工智能推理的需求每周加速

2024-04-02 20:30

View Inc. Ordinary Shares - Class A(VIEW) 0
stem(STEM) 0
谷歌A(GOOGL) 0

在操场上运行GroqCloud的70,000名开发人员和运行在LPU推理引擎上的19,000个新应用程序

加利福尼亚州芒廷维尤，2024年4月2日/美通社/--创新型人工智能解决方案公司Groq今天宣布，超过70,000名新开发人员正在使用GroqCloud，超过19,000个新应用程序通过Groq API在LPU推理引擎上运行。自3月1日推出以来，GroqCloud的快速迁移表明了对实时推理的明确需求，因为开发人员和公司正在为他们的生成性和对话式AI应用寻求更低的延迟和更大的吞吐量。

GroqCloud总经理Sunny Madra表示：“从人工智能的影响者和初创企业，到政府机构和大型企业，开发者社区对GroqCloud的热情欢迎确实令人兴奋。”“人们对GroqCloud的兴趣空前高涨，我对此并不感到意外。很明显，开发人员迫切需要低延迟的人工智能推理功能，我们很高兴看到它被用来将创新的想法变成现实。每隔几个小时，就会有一款使用我们的API的新应用程序发布或更新。”

70,000多名新开发人员正在使用GroqCloud，19,000多个新应用程序在LPU推理引擎上运行

到2027年，人工智能芯片的总可寻址市场(TAM)预计将达到1194亿美元。如今，约40%的人工智能芯片被用于推理，到2027年，仅这一点就将使用于推理的芯片的TAM达到约480亿美元。一旦应用程序达到成熟，它们通常会将90%-95%的资源分配给推理，这表明随着时间的推移，市场会大得多。世界才刚刚开始探索人工智能带来的可能性。随着更多的应用程序和产品推向市场，这一比例可能会增加，这使其成为一个极其保守的估计。由于全球几乎每个行业和政府都希望利用生成式和/或对话式人工智能，人工智能芯片的TAM，特别是致力于推理的系统，似乎是无限的。

Groq首席执行官兼创始人乔纳森·罗斯表示：“GPU非常棒。正是它们让人工智能走到了今天。”“当客户问我他们是否还应该购买GPU时，我会说，‘当然，如果你正在进行培训，因为对于你将用于培训的5%-10%的资源来说，GPU是最优的，但对于你将用于推理的90%-95%的资源，以及你需要实时速度和合理的经济性的地方，我们来谈谈LPU。正如谚语所说，’让我们走到这一步的东西不会把我们带到那里。‘开发人员需要低延迟推理。LPU是更低延迟的推动者，这就是驱使他们使用GroqCloud的原因。”

GPU非常适合训练模型、批量批处理和运行可视化繁重的工作负载，而LPU则专门运行大型语言模型(LLM)和其他AI推理工作负载的实时部署，以提供可操作的见解。LPU通过提供所需的实时推理来填补市场空白，从而通过Groq API以成本和能源高效的方式使生成性人工智能成为现实。

芯片设计与架构问题实时人工智能推理是一个专门的系统问题。硬件和软件在速度和延迟方面都起着作用。再多的软件也无法克服芯片设计和架构造成的硬件瓶颈。

首先，Groq编译器是完全确定的，并在需要时精确地调度每次内存加载、操作和包传输。LPU推理引擎无需等待尚未填满的缓存、因冲突而重新发送数据包或暂停内存加载-所有这些都困扰着使用GPU进行推理的传统数据中心。相反，Groq编译器计划每一次操作和传输，直到循环，确保尽可能高的性能和最快的系统响应。

其次，LPU基于单核确定性体系结构，这使得LLM在设计上比GPU更快。Groq LPU推理引擎依靠SRAM作为内存，比GPU使用的HBM内存快100倍。此外，HBM是动态的，每秒必须刷新十几次。虽然与较慢的内存速度相比，对性能的影响不一定很大，但它确实会使程序优化变得复杂。

无CUDA必备的GPU架构复杂，难以高效编程。进入：库达。CUDA抽象了复杂的GPU体系结构，使编程成为可能。GPU还必须创建高度调优的CUDA内核来加速每个新型号，这反过来需要大量的验证和测试，从而增加了更多的工作并增加了芯片的复杂性。

相反，由于LPU的张量流体系结构，Groq LPU推理引擎不需要CUDA或内核-本质上是低级硬件指令。LPU设计非常简单，因为Groq编译器直接将操作映射到LPU，而无需任何手动调优或实验。此外，Groq以高性能快速编译模型，因为它不需要为新操作创建自定义“内核”，这在推理速度和延迟方面阻碍了GPU。

通过高效的设计LLM来确定人工智能碳足迹的优先顺序估计每年都会以10倍的速度增长，这使得使用GPU时人工智能的输出成本高得令人难以置信。虽然扩大规模会产生一些经济效果，但在GPU架构中工作时，能源效率将继续是一个问题，因为对于每个计算任务，数据仍然需要在芯片和HBM之间来回移动。不断地洗牌数据会迅速燃烧能量焦耳，产生热量，并增加冷却需求，这反过来又需要更多能源。

了解能源消耗和冷却成本在计算成本中的基本作用，Groq设计了芯片硬件，使其本质上是LPU中的AI令牌工厂，以最大限度地提高效率。因此，当前一代LPU的能效比目前可用的最节能的GPU高10倍，因为装配线方法最大限度地减少了芯片外数据流。Groq LPU推理引擎是唯一可用的解决方案，它利用高效设计的硬件和软件系统来满足当今的低碳足迹要求，同时仍然提供无与伦比的用户体验和生产率。

供应链面临哪些挑战？从第一天起，Groq就意识到对有限材料的依赖，以及复杂的全球供应链将增加风险，并阻碍增长和收入。Groq通过设计一种不依赖4纳米硅来提供创纪录的速度或HBM的芯片，从而绕过了供应链挑战，这是极其有限的。事实上，当前一代LPU是由14纳米硅制成的，在运行Llama-270B时，它一致地每用户每秒提供300个令牌。LPU是唯一完全在北美设计、工程和制造的人工智能芯片。

Groq是一家生成式人工智能解决方案公司，也是市场上最快的语言处理加速器LPU推理引擎的创建者。它的架构是从头开始的，以实现低延迟、高能效和可重复的大规模推理性能。客户依赖LPU推理引擎作为端到端解决方案，以10倍的速度运行大型语言模型和其他生成AI应用程序。由LPU推理引擎驱动的Groq系统可供购买。客户还可以通过GroqCloud中的API利用LPU推理引擎进行实验和生产就绪应用程序，购买令牌即服务。Google Tensor Processing Unit的发明者乔纳森·罗斯（Jonathan Ross）创立了Groq，目的是在构建人工智能经济的同时保护人类的能动性。在groq.com体验Groq速度。

[email protected][email protected]

来源Groq

Groq对实时人工智能推理的需求每周加速

推荐文章

美股机会日报 | 金价延续跌势！黄金股盘前续跌，哈莫尼黄金大跌超6%；Beyond Meat盘前飙涨逾80%

AI仍是焦点！一图看懂美股“七巨头”Q3财报前瞻

贝莱德周度投资观点：美国企业盈利韧性仍是关键

AI热潮仍在涌动！小摩：英伟达(NVDA.US)、AMD(AMD.US)和博通(AVGO.US)营收上行潜力被低估

消息称特朗普政府计划对全球药品定价展开新的调查

金价大跌是什么信号？前FED顾问：系统性“流动性危机”已至，金融体系正崩溃！

华盛早报 | 黄金遭全面抛售！一夜暴跌超5%创十二年最大单日跌幅；Beyond Meat受散户追捧，股价三日涨近6倍

德州仪器第四季度业绩展望不及预期，暗示半导体行业复苏缓慢，绩后股价大跌8%