比英伟达同代系统快1.7倍！谷歌首次公布超级计算机细节

2023-04-06 11:34

谷歌首次公布超级计算机的细节，称其比英伟达系统更快、更高效。

当地时间4月4日，谷歌首次公布其用于训练人工智能模型的超级计算机TPU v4的详细信息，并称比英伟达系统更快、更高效——与同等规模的系统相比，谷歌超级计算机比基于英伟达A100芯片的系统最高快1.7倍，节能效率提高1.9倍。

据介绍，超级计算机TPU v4包含4000个TPU芯片。TPU（张量处理单元，Tensor Processing Units）是谷歌自己研发设计的芯片，目前该公司超过90%的训练在TPU上进行，训练过程为给模型输入数据，使其能够回复类似人类语言的文本、生成图像等。

尽管谷歌现在才公开详细信息，但该系统自2020年开始就已经在俄克拉荷马州梅斯县的数据中心内运行。目前支持聊天机器人Bard的大型语言模型PaLM已经在这一超级计算机上训练超50天。此外，AI图像生成公司Midjourney也使用该系统训练其模型，向该模型输入文本能够生成新的图像。

谷歌称，与同等规模的系统相比，超级计算机TPU v4比基于英伟达A100的系统快1.2-1.7倍，耗电量低1.3-1.9倍。谷歌研究人员介绍，“性能、可扩展性和可用性方面的表现，使TPU v4成为大型语言模型的主力。”

聊天机器人基于大型语言模型运作，例如OpenAI的ChatGPT基于该公司开发的模型GPT-3.5，谷歌的Bard前后使用过两款模型，分别为LaMDA和PaLM。

随着聊天机器人之间的竞争愈演愈烈，其背后大型语言模型的规模也“爆炸式增长”。规模过大意味着这些大型语言模型无法继续存储在单个芯片上，而是必须分布在数千个芯片上。此外，这些芯片需要协同工作，花费数周以上时间来训练模型。

也就是说，改善芯片间的连接成为开发AI超级计算机的科技公司的关键竞争点。对此谷歌表示，其超级计算机可以轻松地在运行过程中重新配置芯片之间的连接，这能够避免问题并优化性能。

“电路切换使得系统能够更容易绕过故障组件。”谷歌研究员Norm Jouppi和工程师David Patterson在一篇博客中写道，“这种灵活性甚至允许我们改变超级计算机互连的拓扑结构，加速ML（机器学习）模型的性能。”

根据CNBC的报道，由于人工智能所需的大量算力非常昂贵，许多业内人士都在专注开发新的芯片、光学连接等组件，以减少所需算力。不过目前在AI训练芯片市场，英伟达份额超过90%并占据主导地位，ChatGPT等AI模型均基于英伟达的A100芯片运行。

就在此前3月，英伟达又推出了为大型语言模型设计的新款GPU（图形处理器）H100，与A100相比，搭载四对H100和双NVLINK的标准服务器的处理速度最高可达10倍。

目前谷歌并未公布TPU与H100的对比数据，理由是H100在TPU芯片之后上市，且采用了更新的技术。值得注意的是，谷歌暗示其正在开发一种新的TPU，未来将与H100展开竞争，该公司还没有提供任何相关细节。

4月5日美股收盘，谷歌跌0.24%，报收104.47美元/股。