4070Ti显卡的深度学习性能测试和结论

环境:
pytorch环境:conda install pytorch==1.12.1 torchvision==0.13.1 torchaudio==0.12.1 cudatoolkit=11.6 -c pytorch -c conda-forge
测试代码:霹雳吧啦Wz的GitHub中的swin-L和FastRCNN。
4070Ti显卡深度学习模型个人测试结果

备注1:主流显卡的测评分

• time spy跑分参考:https://www.gpu-monkey.com/en/gpu_benchmark-3dmark_time_spy_and_fire_strike-5
备注2:其他显卡的测试性能(SSD模型,FP32训练)

备注3:另一个网站上的综合评分

备注4:各类GPU的FP16和FP8训练和推理性能

感觉备注4和我真实测试的有较大差异,FP16的训练,4070ti竟然和2080Ti几乎一样,不知道为什么作者会得出此结论。
个人总结
timespy 4K跑分非常适合深度学习性能评估:作为经过本人验证,4070ti的深度学习性能(FP32训练和推理)相对1080T和2080T显卡的差异,几乎跟time spy 4K跑分差异几乎一致。至于FP16和FP8,还未测试。
操作系统基本不影响显卡深度学习性能:Ubuntu 22.04和win11系统下,4070ti的训练和推理速度几乎一模一样。
12G显存是硬伤:4070T相对3090速度上并不差,只是显存12G真的是硬伤,分类网络swin-L的batchsize都只能设为8(图像224*224)。