欢迎光临散文网 会员登陆 & 注册

A100 PCIE 单卡 张量核心 GPU 简介

2023-08-22 10:40 作者:bili_15359021002  | 我要投稿

NVIDIA A100 Tensor Core GPU 基于全新 NVIDIA Ampere GPU 架构,并以之前的 NVIDIA Tesla V100 GPU 的功能为基础。它添加了许多新功能,并为 HPC、AI 和数据分析工作负载提供了显着更快的性能。 

A100 为在单 GPU 和多 GPU 工作站、服务器、集群、云数据中心、边缘系统和超级计算机中运行的 GPU 计算和深度学习应用程序提供强大的扩展能力。A100 GPU 支持构建弹性、多功能和高吞吐量的数据中心。

A100 GPU 包括革命性的新型多实例 GPU (MIG) 虚拟化和 GPU 分区功能,这对云服务提供商 (CSP) 特别有利。当配置为 MIG 操作时,A100 允许 CSP 提高其 GPU 服务器的利用率,无需额外成本即可提供多达 7 倍的 GPU 实例。强大的故障隔离功能使他们能够安全可靠地对单个 A100 GPU 进行分区。

A100 增加了强大的全新第三代 Tensor Core,与 V100 相比,吞吐量大幅提升,同时添加了对 DL 和 HPC 数据类型的全面支持,以及新的 Sparsity 功能,可将吞吐量进一步提高一倍。 

A100 中的新 TensorFloat-32 (TF32) Tensor Core 运算提供了一种在 DL 框架和 HPC 中加速 FP32 输入/输出数据的简单路径,其运行速度比 V100 FP32 FMA 运算快 10 倍,或者在稀疏性情况下快 20 倍。对于 FP16/FP32 混合精度 DL,A100 Tensor Core 的性能是 V100 的 2.5 倍,在稀疏性下提高到 5 倍。 

新的 Bfloat16 (BF16)/FP32 混合精度 Tensor Core 运算的运行速度与 FP16/FP32 混合精度相同。INT8、INT4 和二进制的 Tensor Core 加速完善了对深度学习推理的支持,A100 稀疏 INT8 的运行速度比 V100 INT8 快 20 倍。对于 HPC,A100 Tensor Core 包括符合 IEEE 规范的全新 FP64 处理,其 FP64 性能是 V100 的 2.5 倍。 

NVIDIA A100 GPU 的架构不仅可以加速大型复杂工作负载,还可以有效加速许多较小的工作负载。A100 能够构建能够满足不可预测的工作负载需求的数据中心,同时提供细粒度的工作负载配置、更高的 GPU 利用率和更低的 TCO。 


A100 PCIE 单卡 张量核心 GPU 简介的评论 (共 条)

分享到微博请遵守国家法律