欢迎光临散文网 会员登陆 & 注册

4090在深度学习训练上的性能表现数据分享

2023-06-29 18:05 作者:云客数字服务器工厂  | 我要投稿

我们对训练 Transformer 模型在各种 GPU(包括单 GPU、多 GPU 和多机器)上可以实现的真实Tera FLOPS进行了基准测试。它可以帮助您估计训练大型 Transformer 模型需要多少机器时间。

实际性能取决于多种因素,包括硬件、冷却、CUDA版本、变压器模型、超参数(例如批量大小)和实现。我们在我们自己的服务器平台上面运行了并整理了相应的数据。

测试平台:

平台:超微SYS-420GP-TNR(3代Xeon平台)

显卡:单涡轮 4090

cpu:Intel Xeon Gold 6348

测量各种微基准测试的TFLOPS。测试方法:李沐老师micro-benchmarkings

测试结果:

测试说明:

1.矩阵计算速度

transformer的核心操作是矩阵乘法,通过测试矩阵计算的tflops可以得到硬件的计算上限。

可以看出单精度提升明显,因为Tensor Cores的缘故,半精度性能相比单精度有很大的提升,半精度下为161 TFLPOPS是3090Ti的

2.向量乘法速度、带宽

深度学习训练中,带宽会限制你的训练速度。因为网络训练过程中的激活函数会做的事情计算步骤类似向量乘法,这种操作会很慢,从而减慢训练速度。

可以看出4090向量乘法操作大约是3090ti的四倍,吞吐量提升很多,尽管位宽一样。

3.Bert Layer Forward/Forward+Backward速度

从上面的测试数据可以看出,越简单的代码,提高越接近2倍的理论值,对于一些复杂的代码,因为有一些不同的附加操作,提高的值会有所差异。

GPT的提高就比BERT相对来说小一些,因为它包括了一个掩码的计算,所以这个使得产生了非常强的性能损失,相比bert。

总结:

从矩阵计算硬件的计算上限来说,4090在单精度上提升明显,因为Tensor Cores的缘故,半精度提升2倍, 4090bertForward操作的性能是 3090ti的1.77倍,Forward+Backward是3090ti的1.68倍。

想了解RTX4090整机的更多测试报告,欢迎私信我们~


4090在深度学习训练上的性能表现数据分享的评论 (共 条)

分享到微博请遵守国家法律