NVLink 和 NVSwitch技术

2023-07-31 16:27 作者:云客数字服务器工厂 0人读过 | 我要投稿

一、NVLink

什么是NVLink？

NVLink是英伟达（NVIDIA）开发并推出的一种总线及其通信协议。NVLink采用点对点结构、串列传输，是世界首项高速 GPU 互连技术，与传统的 PCIe 系统解决方案相比，能为多 GPU 系统提供更快速的替代方案。NVIDIA NVLink 技术通过连接两块 NVIDIA显卡，能够实现显存和性能扩展，从而满足最大视觉计算工作负载的需求。

目前NVLink已经发展到了第四代，第四代 NVIDIA NVLink 技术可为多 GPU 系统配置提供高于以往 1.5 倍的带宽，以及增强的可扩展性。单个 NVIDIA H100 Tensor Core GPU 支持多达 18 个 NVLink 连接，总带宽为 900 GB/s，是 PCIe 5.0 带宽的 7 倍。

NVIDIA DGX H100 等服务器可利用NVLink技术来提高可扩展性，进而实现超快速的深度学习训练。

NVLink 的历史

NVLink 最初作为 NVIDIA P100 GPU 的互连通道推出，之后便与每一代新的 NVIDIA GPU 架构同步发展。NVLink技术能够提高系统的吞吐量，NVLink技术主要就是为了实现显存和性能。发展历程由P100（1代）到V100(2代)。

到A100(3代)到H100(4代)。第二代NVLink总带宽是300GB/S，每个GPU最大链路数为6，第二代支持Volta架构。关于架构的介绍，大家可以看看前几期的文章。第三代NVLink总带宽是600GB/S，每个GPU最大链路数为12，第三代支持Ampere 架构。第四代NVLink总带宽是900GB/S，每个GPU最大链路数为18，第四代支持 Hopper架构。

关于NVIDA GPU卡SXM和PCIe之间的差异性,大家可以看这篇帖子:

浅析：NVIDA GPU卡SXM和PCIe之间的差异性

二、NVSwitch

NVLink和NVSwitch是NVIDIA推出的高速互联技术，用于连接GPU和其他设备，如CPU、网络等。相比传统PCIe通信，NVLink和NVSwitch具有更高的带宽和更低的延迟，因此在NLP大模型训练应用中，它们可以提供更好的性能。

NVSwitch 是首款节点交换架构，可在单个服务器节点中支持 8 到 16 个全互联的 GPU。第三代 NVSwitch 能以惊人的 900GB/s 的速度互连每对 GPU。它还支持完整的多对多通信。这些 GPU 可用作单个高性能加速器，拥有高达 15 petaFLOPS 的深度学习计算性能。第一代NVSwitch，支持最多8个直连或节点中GPU数量，NVSwitch GPU之间的带宽是300GB/S，聚合总带宽是2.4TB/s，NVIDIA 架构支持 Volta 架构。第二代NVSwitch，支持最多8个直连或节点中GPU数量，NVSwitch GPU之间的带宽是600GB/S，聚合总带宽是4.8TB/s，NVIDIA 架构支持 Ampere 架构。第三代NVSwitch，支持最多8个直连或节点中GPU数量，NVSwitch GPU之间的带宽是900GB/S，聚合总带宽是7.2TB/s，NVIDIA 架构支持 Hopper 架构。

NVSwitch还能够支持最新的DGX-2技术，相比于之前的DGX-1技术，DGX-2提速能够达到10倍以上，在速率方面提升很高。

三、两者如何协同工作

借助 NVSwitch，NVLink 连接可在节点间扩展，以创建无缝、高带宽的多节点 GPU 集群，从而有效地形成数据中心大小的 GPU。通过在服务器外部添加第二层 NVSwitch，NVLink 网络可以连接多达 256 个 GPU，并提供 57.6 TB/s 的惊人多对多带宽，从而快速完成大型 AI 作业。

一套NVLink最多可连接8颗CPU，NVSwitch并非作为取代NVlink的技术，而是使两组NVLink共1颗GUP能够互相具备全速沟通通道的手段;在设计上，NVLink被加在每两组GPU之间，两组NVLink则通过高速通道练连接。此时NVSwitch能够扮演每个GPU相互沟通时的通道切换角色。