欢迎光临散文网 会员登陆 & 注册

NVIDIA DGX GH200 超级服务器系统架构 GPU升级

2023-08-24 09:23 作者:bili_15359021002  | 我要投稿

在COMPUTEX 2023, NVIDIA 宣布NVIDIA DGX GH200,这标志着 GPU 的又一突破——加速计算,为最苛刻的巨型人工智能工作负载提供动力。除了描述 NVIDIA DGX GH200 体系结构的关键方面外,本文还讨论了如何使用NVIDIA Base Command实现快速部署,加快用户入职,并简化系统管理。

GPU 的统一内存编程模型是过去 7 年来复杂加速计算应用取得各种突破的基石。 2016 年, NVIDIA 推出NVLink技术和带有 CUDA-6 的统一内存编程模型,旨在增加 GPU 加速工作负载的可用内存。

从那时起,每个 DGX 系统的核心都是与 NVLink 互连的基板上的 GPU 复合体,其中每个 GPU 可以以 NVLink 的速度访问另一个的存储器。许多具有 GPU 复合体的 DGX 通过高速网络互连,形成更大的超级计算机,如NVIDIA Selene 超级计算机。然而,一类新兴的万亿参数的巨型人工智能模型要么需要几个月的训练,要么即使在当今最好的超级计算机上也无法求解。

为了让需要一个能够解决这些非凡挑战的先进平台的科学家们获得力量, NVIDIA NVIDIA Grace Hopper Superchip与 NVLink 交换系统,在 NVIDIA DGX GH200 系统中集成多达 256 GPU 。在 DGX GH200 系统中, GPU 共享内存编程模型可以通过 NVLink 高速访问 144 TB 的内存。

与单个相比NVIDIA DGX A100 320 GB 系统, NVIDIA DGX GH200 通过 NVLink 为 GPU 共享内存编程模型提供了近 500 倍的内存,形成了一个巨大的数据中心大小的 GPU 。 NVIDIA DGX GH200 是第一台突破 NVLink 上 GPU 可访问内存 100 TB 障碍的超级计算机。

NVIDIA DGX GH200 系统架构

NVIDIA Grace Hopper 超级芯片和 NVLink Switch System 是 NVIDIA DGX GH200 架构的构建块。 NVIDIA Grace Hopper 超级芯片结合了 Grace 和 Hopper 架构,使用 NVIDIA NVLink-C2C以传递 CPU + GPU 相干存储器模型。 NVLink 交换系统由第四代 NVLink 技术提供动力,将 NVLink 连接扩展到超级芯片,以创建无缝、高带宽、多 GPU 系统。

NVIDIA DGX GH200 中的每个 NVIDIA Grace Hopper 超级芯片都有 480 GB LPDDR5 CPU 内存,与 DDR5 和 96 GB 快速 HBM3 相比,每 GB 的功率是其八分之一。 NVIDIA Grace CPU 和 Hopper GPU 与 NVLink-C2C 互连,以五分之一的功率提供比 PCIe Gen5 多 7 倍的带宽。

NVLink 交换系统形成了一个两级、无阻塞、fat-tree NVLink 结构,可在 DGX GH200 系统中完全连接 256 个 Grace Hopper 超级芯片。 DGX GH200 中的每个 GPU 都可以以 900GBps 访问所有 NVIDIA Grace CPU 的其他 GPU 和扩展 GPU 存储器。

托管 Grace Hopper 超级芯片的计算基板使用第一层 NVLink 结构的自定义线束连接到 NVLink 交换机系统。 LinkX 电缆扩展了 NVLink 结构第二层的连接。


NVIDIA DGX GH200 超级服务器系统架构 GPU升级的评论 (共 条)

分享到微博请遵守国家法律