欢迎光临散文网 会员登陆 & 注册

真Big Fxxking GPU:英伟达H100加速卡发布,4nm工艺,超大性能提升!

2022-03-23 04:11 作者:AMP_EXTREME  | 我要投稿

更加期待下半年的GeForce新品了

英伟达不管你怎么看他不爽,他终归是地球上的第一AI巨头。在刚才结束的GTC2022中,英伟达CEO黄仁勋的主题演讲上,带来了新一代的,基于Hopper架构的H100数据中心加速器。

 基于GH100 GPU 

官方白皮书数据,全新英伟达GH100 GPU,并非基于之前传闻中的台积电N5工艺,而是使用更为先进的N4工艺。整个芯片面积为814mm²,相比GA100甚至更小,但是却集成了800亿晶体管,并且采用了更高频率设计。

完整版GH100 GPU架构框图

完整规格的GH100 GPU规格,包含了总计8个GPC图形集群,72个TPC纹理集群,144个SM流式多处理器,共计18432个FP32 CUDA核心(这也和目前传闻中AD102完整版完全吻合),专用于AI训练的第四代张量核心TensorCore为每组SM配备4个,共计576个。显存方面最大支持6个HBM3或HBM2e堆栈,6144bit显存位宽,L2缓存提升到60MB,并且支持第四代NVLink和PCIe Gen5。

Hopper架构的SM流式多处理器框图

不过,GH100是面向人工智能、数据分析等负载构建的,而不是图形处理,SXM5版和PCIe H100所使用的GH100 GPU中,只有两个TPC具有图形处理能力。

 H100 SXM5 加速器 

GH100 GPU用于两个款式的加速卡上,分别为SXM5版和PCIe5版,SXM协议更多用在密集计算的数据中心上,规格也更高一些。大概是受制于良率,即便是高规格的SXM5版也并不是满血的GH100核心。

H100 SXM5使用的H100 GPU规格为66个TPC纹理集群,SM数量下降到132组,而CUDA数量也是下降到16896个(但相比于目前的GA100岂止于翻倍),张量核心为528个。显存方面,H100 SXM5启用5个HBM3堆栈,共计80GB,显存位宽为5120Bit。L2缓存也下降到50MB,对比A100依然有25%提升。


 H100 PCIe5 加速器 

PCIe5版的H100 CNX,集成了CX7芯片,可以将网络数据以50GB/s的速度直接传输给GH100 GPU处理

PCIe版更多用于小型企业,虽然但是,PCIe版的性能也是不容小觑。PCIe版采用进一步缩减的GH100 GPU,SM数量下降到114组,CUDA数量下降到14592个,张量核心则缩减到了456个。显存方面,启用的是5个HBM2e堆栈,容量与SXM5版相同,为80GB 5120Bit位宽,L2缓存大小一致。


 碾压性的性能对比 

白皮书揭露了新的H100两款FP32算力,这也是我们这些一般用户可以关注一下的指标。132组SM/16896CUDA的SXM5版本,FP32单精度算力为60TFlops,根据CSDN一篇文章提供的公式:单精度理论峰值=FP32 cores*GPU频率*2,可以推出工作频率约为1775MHz。而本世代的A100加速卡的GA100核心工作频率为1410MHz,频率提升近26%。GeForce产品使用的GPU往往会给到更高的频率,下一代RTX 40有望2G起步?


在算力方面,H100 SXM5对比现在的A100在多个项目中都超过200%的提升,最低的FP16半精度运算也有50%的性能提升,可谓是碾压级。

而在演讲上,老黄更是直接带来了H100在三种负载下对比A100的效率提升,训练Transformer模型从5天缩短到了19小时,而在结合了英伟达多项尖端软硬件条件下,整个模型训练从7天缩短到了20小时,效率足足提升9倍。

新一代DGX H100,内置8块H100加速器

虽然英伟达数据中心加速器系列和我们普通消费者太过遥远,但是新的GH100 GPU的规格很难不让人揣测下半年发布的Ada Lovelace架构。如此程度的规格、性能提升,接下来真的很可能达到如同GTX 900到GTX 10系,甚至超过那一代的提升幅度,总之做足准备,敬请见证。

官方白皮书封面

作者深知自身水平不够专业,如果文中有错误敬请谅解,本文资料来自GTC2022主题演讲和英伟达HOPPER架构白皮书,可以前往英伟达中国官网数据中心页查看官方白皮书。

真Big Fxxking GPU:英伟达H100加速卡发布,4nm工艺,超大性能提升!的评论 (共 条)

分享到微博请遵守国家法律