热门资讯> 正文
2024-04-02 20:30
在操场上运行GroqCloud的70,000名开发人员和运行在LPU推理引擎上的19,000个新应用程序
加利福尼亚州芒廷维尤,2024年4月2日/美通社/--创新型人工智能解决方案公司Groq今天宣布,超过70,000名新开发人员正在使用GroqCloud,超过19,000个新应用程序通过Groq API在LPU推理引擎上运行。自3月1日推出以来,GroqCloud的快速迁移表明了对实时推理的明确需求,因为开发人员和公司正在为他们的生成性和对话式AI应用寻求更低的延迟和更大的吞吐量。 GroqCloud总经理Sunny Madra表示:“从人工智能的影响者和初创企业,到政府机构和大型企业,开发者社区对GroqCloud的热情欢迎确实令人兴奋。”“人们对GroqCloud的兴趣空前高涨,我对此并不感到意外。很明显,开发人员迫切需要低延迟的人工智能推理功能,我们很高兴看到它被用来将创新的想法变成现实。每隔几个小时,就会有一款使用我们的API的新应用程序发布或更新。”70,000多名新开发人员正在使用GroqCloud,19,000多个新应用程序在LPU推理引擎上运行
到2027年,人工智能芯片的总可寻址市场(TAM)预计将达到1194亿美元。如今,约40%的人工智能芯片被用于推理,到2027年,仅这一点就将使用于推理的芯片的TAM达到约480亿美元。一旦应用程序达到成熟,它们通常会将90%-95%的资源分配给推理,这表明随着时间的推移,市场会大得多。世界才刚刚开始探索人工智能带来的可能性。随着更多的应用程序和产品推向市场,这一比例可能会增加,这使其成为一个极其保守的估计。由于全球几乎每个行业和政府都希望利用生成式和/或对话式人工智能,人工智能芯片的TAM,特别是致力于推理的系统,似乎是无限的。
Groq首席执行官兼创始人乔纳森·罗斯表示:“GPU非常棒。正是它们让人工智能走到了今天。”“当客户问我他们是否还应该购买GPU时,我会说,‘当然,如果你正在进行培训,因为对于你将用于培训的5%-10%的资源来说,GPU是最优的,但对于你将用于推理的90%-95%的资源,以及你需要实时速度和合理的经济性的地方,我们来谈谈LPU。正如谚语所说,’让我们走到这一步的东西不会把我们带到那里。‘开发人员需要低延迟推理。LPU是更低延迟的推动者,这就是驱使他们使用GroqCloud的原因。” GPU非常适合训练模型、批量批处理和运行可视化繁重的工作负载,而LPU则专门运行大型语言模型(LLM)和其他AI推理工作负载的实时部署,以提供可操作的见解。LPU通过提供所需的实时推理来填补市场空白,从而通过Groq API以成本和能源高效的方式使生成性人工智能成为现实。 芯片设计与架构问题实时人工智能推理是一个专门的系统问题。硬件和软件在速度和延迟方面都起着作用。再多的软件也无法克服芯片设计和架构造成的硬件瓶颈。 首先,Groq编译器是完全确定的,并在需要时精确地调度每次内存加载、操作和包传输。LPU推理引擎无需等待尚未填满的缓存、因冲突而重新发送数据包或暂停内存加载-所有这些都困扰着使用GPU进行推理的传统数据中心。相反,Groq编译器计划每一次操作和传输,直到循环,确保尽可能高的性能和最快的系统响应。 其次,LPU基于单核确定性体系结构,这使得LLM在设计上比GPU更快。Groq LPU推理引擎依靠SRAM作为内存,比GPU使用的HBM内存快100倍。此外,HBM是动态的,每秒必须刷新十几次。虽然与较慢的内存速度相比,对性能的影响不一定很大,但它确实会使程序优化变得复杂。无CUDA必备的GPU架构复杂,难以高效编程。进入:库达。CUDA抽象了复杂的GPU体系结构,使编程成为可能。GPU还必须创建高度调优的CUDA内核来加速每个新型号,这反过来需要大量的验证和测试,从而增加了更多的工作并增加了芯片的复杂性。
相反,由于LPU的张量流体系结构,Groq LPU推理引擎不需要CUDA或内核-本质上是低级硬件指令。LPU设计非常简单,因为Groq编译器直接将操作映射到LPU,而无需任何手动调优或实验。此外,Groq以高性能快速编译模型,因为它不需要为新操作创建自定义“内核”,这在推理速度和延迟方面阻碍了GPU。 通过高效的设计LLM来确定人工智能碳足迹的优先顺序估计每年都会以10倍的速度增长,这使得使用GPU时人工智能的输出成本高得令人难以置信。虽然扩大规模会产生一些经济效果,但在GPU架构中工作时,能源效率将继续是一个问题,因为对于每个计算任务,数据仍然需要在芯片和HBM之间来回移动。不断地洗牌数据会迅速燃烧能量焦耳,产生热量,并增加冷却需求,这反过来又需要更多能源。 了解能源消耗和冷却成本在计算成本中的基本作用,Groq设计了芯片硬件,使其本质上是LPU中的AI令牌工厂,以最大限度地提高效率。因此,当前一代LPU的能效比目前可用的最节能的GPU高10倍,因为装配线方法最大限度地减少了芯片外数据流。Groq LPU推理引擎是唯一可用的解决方案,它利用高效设计的硬件和软件系统来满足当今的低碳足迹要求,同时仍然提供无与伦比的用户体验和生产率。供应链面临哪些挑战?从第一天起,Groq就意识到对有限材料的依赖,以及复杂的全球供应链将增加风险,并阻碍增长和收入。Groq通过设计一种不依赖4纳米硅来提供创纪录的速度或HBM的芯片,从而绕过了供应链挑战,这是极其有限的。事实上,当前一代LPU是由14纳米硅制成的,在运行Llama-270B时,它一致地每用户每秒提供300个令牌。LPU是唯一完全在北美设计、工程和制造的人工智能芯片。
Groq是一家生成式人工智能解决方案公司,也是市场上最快的语言处理加速器LPU推理引擎的创建者。它的架构是从头开始的,以实现低延迟、高能效和可重复的大规模推理性能。客户依赖LPU推理引擎作为端到端解决方案,以10倍的速度运行大型语言模型和其他生成AI应用程序。由LPU推理引擎驱动的Groq系统可供购买。客户还可以通过GroqCloud中的API利用LPU推理引擎进行实验和生产就绪应用程序,购买令牌即服务。Google Tensor Processing Unit的发明者乔纳森·罗斯(Jonathan Ross)创立了Groq,目的是在构建人工智能经济的同时保护人类的能动性。在groq.com体验Groq速度。
[email protected][email protected]
来源Groq