热门资讯> 正文
2022-09-09 10:36
今日凌晨,MLPerf公布最新的推理榜单,MLPerf是全球最权威的AI基准测试之一,由图灵奖得主大卫·帕特森(David Patterson)联合谷歌、斯坦福大学、哈佛大学等共同成立。本次在参与跑分的结果中,我们在提交者一栏看到了不少中国厂商的名字,除了老常客浪潮、新华三之外,我们还久违地看到了来自中国的芯片公司以自己研发的加速芯片参与评测,拿下了多项世界第一的好成绩,比如最近推出了首款新品的壁仞科技(欲了解该产品,参考之前报道《专访壁仞科技高管:解构公司首颗7nm GPU》)。
我们查看了MLPerf此前历年的评测结果,壁仞科技是继阿里平头哥(含光800,2019年)之后,第二个成功在MLPerf榜单拿到全球第一的国内厂商。同时,壁仞科技的BR104也是唯一一个在MLPerf推理榜单超越A100的国产芯片(含光800上榜时对标的产品是NVIDIA T4)。这也意味着,当前英伟达A100和H100在国内禁售情况不明之下,国内的应用厂商有了靠谱的国产替代芯片选择,并且根据MLPerf最新发布的榜单结果,该国产替代BR104在算力性能指标上,还要优于A100。另外,算力性能指标是BR104两倍的BR00,极有可能是H100的国产替代芯片Plan B。
据了解,壁仞本次提供了一款搭载8张壁砺104板卡的服务器(壁砺104板卡基于今年8月发布的BR104芯片),参加了数据中心场景的Closed Division(固定任务)评测,并提交了ResNet50和BERT两个模型的数据(同时包括了Offline模式和Server模式)。按照壁仞科技所说,之所以选择BERT和ResNet50两个模型参加评选,主要考虑在于这两个模型,特别是BERT模型是其目标客户应用最广泛、最重要的模型。
特别是壁仞科技此次参加的Closed Division(固定任务)类别的评测,要求参评者在模型完全一致且接近产业应用实际环境下进行性能的测试,是目前业内最公平最具说服力的测试。而壁仞科技所属的“available”类别,则对应包括A100在内的在售产品,因此通过此次的成绩,壁仞科技将能够以第三方权威数据向广大客户展示BR104芯片,乃至整个BR100系列芯片的实际落地商用能力。
标准测试结果显示,壁仞科技的BR104在ResNet50(Offline)和BERT(Offline & Server, 99.9%精度)两个模型下,均拿下了单卡性能全球第一的成绩。在BERT模型的评选中,BR104甚至还同时拿下了Offline模式和Server模式全球第一的成绩,性能1.58倍于英伟达提交的,基于8张A100的机型。
除了壁仞自己提交的系统外,其合作伙伴浪潮信息还提交了一款搭载4张壁砺104板卡的服务器。此次是浪潮信息首次提交基于国产厂商产品的服务器测试成绩。但依托BR104的优秀性能,在所有的4卡机型中,浪潮提交的服务器在ResNet50(Offline)和BERT(Offline & Server, 99.9%精度)两个模型下,也拿到了全球第一的成绩。
作为国际上最权威、最有影响力的基准测试之一,MLPerf为及时跟踪和评测迅速发展的AI计算需求与性能而生的。哪些能够经过这个测试考验的企业,也足以证明了他们的实力。我们认为,壁仞科技这次在MLPerf上展现出的产品性能,与其原创芯片架构设计有莫大的关系。
在早前举办的全球半导体行业盛会Hotchips,壁仞科技也参与了演讲。该公司的两位联合创始人,总裁徐凌杰先生和CTO洪洲先生也在会上进一步披露了BR100系列的更多细节。
据会上介绍,BR100系列的设计目的主要是通过5个“C”,来加速未来数据中心规模的各种计算任务。如下图所示,这5个C包括:计算密度(Compute density)、连接性(Connectivity)、拥有成本(Cost of Ownership)、软硬件协同设计(Co-design hardware and software)和数据中心基础设施的兼容性(Compatibility with datacenter infrastructure)。
SPC是BR100系列的核心计算单元。它由EU(执行单元)和L1缓存,以及分布式L2缓存组成。EU是执行标量、向量和张量运算以及数据存取的核心模块,除指令缓存、线程束调度器(warp scheduler)和计算任务发射单元(dispatch unit)外,主要包括了流式处理单元(V-core)、张量加速引擎(T-core)、线程本地寄存器(Thread Local Register file)、数据处理引擎、数据存取加速单元TDA等。
SPC中,最少每4个EU可以组成一个CU(计算单元),共享一组L1缓存。在CU内部,线程组都是同步的,且CU是可以进一步扩展的,可以是4/8/16个EU组成1个CU。
V-core是通用SIMT处理器,是BR100 SPC的核心,具有与通用计算相关的全套ISA(指令集),包括支持FP32/FP16/INT32/INT16等精度的ALU,特殊函数,数据存取、预处理,对T-core的控制以及对常见/长尾深度学习算子的支持等。此外,BR100系列的V-core还具有许多相比传统GPU的增强特性,例如C-Warp协同并发模式等。
C-Warp是V-core中的一种增强的线程并发模式,能够提供比传统SIMT的warp控制模式更高的并发性。
T-core是SPC中的专用张量加速引擎,为2.5D的混合架构,整个SPC相当于一个大的通用矩阵乘加单元GEMM。相比单纯的2D加速单元,在相同的吞吐率下,2.5D混合GEMM的延迟更小;相比较小的3D MMA,2.5D混合GEMM在大多数负载下都有更好的数据重用性,因此可以在相同的数据吞吐率下大大降低对于内存带宽和缓存空间的占用。除此之外,如果要单纯做更大的3D MMA,绕线的复杂性会导致其扩展性不佳,而2.5D混合GEMM架构正是一个更好的解决方案。
TF32+是壁仞提出的一种针对AI训练的数据类型。它具有8位指数和15位尾数,是NVIDIA TF32精度的32倍。之所以要提出TF32+,首先是因为在有些模型训练的过程中,FP16/TF32的10位尾数并不足够使得这些模型收敛,这会使得开发新的模型的过程变得更慢。多出的5位尾数将使得训练模型收敛的速度更快,或者使得它们的权重数据更精确。
此外,TF32+反映了壁仞硬件架构的核心特征——也即复用基于BF16的8位乘法器,从而简化T-core的设计。在壁仞的硬件上,它具有比TF32更加精确和高效的AI训练计算效能。除此之外,它的使用方法与TF32类似,也即用户只需要声明FP32变量类型,在DNN张量加速库中会被自动转换为TF32+。用户对这一转换过程无感知,并且最终MMA的输出结果也为FP32。除此之外,在壁仞的硬件中还支持FP32 MMA的数据类型,能够提供比CPU的原生FP32更高的矩阵乘计算精度,从而更好地支持混合精度的AI训练。
软件方面,壁仞开发了BIRENSUPA软件栈,核心编程模型具有C/C++的编程接口和运行时API,风格与主流的GPGPU开发语言和编程范式类似。它能够使得开发者在BR100上非常容易地进行编程开发,同时带来较小的代码迁移工作量。
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第3155内容,欢迎关注。
推荐阅读
★USB发展简史:从“通用”走向通用
★2nm那么难,日本成吗?
★淘汰赛开打,国产芯片公司的五种“死法”
半导体行业观察
『半导体第一垂直媒体』
实时 专业 原创 深度
识别二维码,回复下方关键词,阅读更多
晶圆|集成电路|设备|汽车芯片|存储|台积电|AI|封装
回复投稿,看《如何成为“半导体行业观察”的一员 》
回复搜索,还能轻松找到其他你感兴趣的文章!