电子行业报告:聊聊交换机和AI有什么关系?
报告出品方:信达证券
以下为报告原文节选
------
聊聊交换机:和 AI 有什么关系?
Q:什么是协议?
A:网络协议为计算机网络中进行数据交换而建立的规则、标准或约定的集合。
#解析法律层面上,OSI 七层协议为国际协议。20 世纪 80 年代,为了规范化计算机之间的通信方式,从而满足开放式网络的需求,OSI(Open System Interconnection)协议被提出,其采用了一种七层网络。
⚫ 物理层:解决了硬件之间如何通信,主要功能为定义物理设备标准(如接口类型、传输速率等),从而实现比特流(一种以 0、1 表示的数据流)的传输。
⚫ 数据链路层:主要功能为帧编码和误差纠正控制。具体工作为接受来自物理层的数据,并封装为帧,然后传输到上一层。同样也可以将来自网络层的数据拆为比特流传输给物理层。之所以能实现纠错的功能,是因为每帧除了要传输的数据外,还包括校验信息。
⚫ 网络层:在节点之间创建逻辑电路,通过 IP 寻找地址(在网络中每个节点都有一个IP)。这一层传输的数据以包为单位。
⚫ 传输层:负责监督数据传输的质量,若发生丢包,则应该重新发送。
⚫ 会话层:主要功能为管理网络设备的会话连接。
⚫ 表示层:主要负责数据格式转换、加密等。
⚫ 应用层:提供应用接口,可以为用户直接提供各种网络服务,完成各种网络工作。
事实层面上,TCP/IP 协议为国际协议。在 OSI 七层协议七层模型建立之前,TCP/IP 协议簇便已开始运行,且因特网在当时已覆盖了,借因特网的助力,尽管 OSI 七层模型在法律层面是国际标准,但 TCP/IP 成为了事实上的国际标准。TCP/IP 是包含各种协议的协议簇,这些协议可以大致分为四层,即应用层、传输层、网络层、数据链路层,实际上,TCP/IP协议可以理解做 OSI 七层协议的优化版。
OSI 引入了服务、接口、协议、分层的概念,TCP/IP 借鉴了 OSI 的这些概念建立 TCP/IP模型。TCP/IP 涉及的协议数量众多,其中传输层的 TCP、UDP 较有代表性。
⚫ TCP(输出控制协议,Transmission Control Protocol):用于在 IP 之上确保数据包的可靠传输,是一种面向连接的、可靠的、基于字节流的协议。TCP 连接的过程可以视为三次握手,首先,客户端向服务端发送连接请求报文段,然后,如果同意连接,则会发送一个应答,最后,当客户端收到连接同意的应答后,还要向服务端发送一个确认报文。客户端发完这个报文段后便进入 ESTABLISHED 状态,服务端收到这个应答后也进入 ESTABLISHED 状态,此时连接建立成功。之所以是三次握手,是因为要保证可靠性。
⚫ UDP(用户数据包协议,User Datagram Protocol):是一种面向无连接的、不可靠的协议。UDP 没有握手过程,只是源源不断的进行传输,UDP 无法恢复丢失的数据包。
但相对于 TCP,效率更高。
由于 HPC 对于网络高吞吐、低时延的要求,TCP/IP 逐步过渡到 RDMA。TCP/IP 有几个主要的缺点:
⚫ 其一,存在数十微秒的时延。由于 TCP/IP 协议栈在传输时,需要多次上下文切换,并依赖 CPU 进行封装,因此时延较长。
⚫ 其二,CPU 负载严重。TCP/IP 网络需要主机 CPU 多次参与协议栈内存拷贝,CPU负载与网络带宽相关系数过大。
RDMA(远程内存直接访问技术,RemoteDirect Memory Access):能直接通过网络接口访问内存数据,无需操作系统内核的介入。这允许高吞吐、低延迟的网络通信,尤其适合在大规模并行计算机集群中使用。
RDMA 未规定全部协议栈,但是对具体的传输提出了较高的要求:例如不轻易丢、吞吐量大、延时低等等。RDMA 中包含不同的分支,其中, Infiniband 专为 RDMA 设计,从硬件级别保证可靠传输 ,技术先进,但是成本高昂。 而 RoCE 和 iWARP 都是基于以太网的RDMA 技术。
Q:数据中心架构中,交换机有什么用?
A:交换机是一种用于电信号转发的网络设备。在数据中心中,负责将数据转发等职能。
#解析交换机和路由器工作的层次不同。交换机(Switch)工作在数据链路层,基于 MAC(网卡的硬件地址)识别,能完成封装转发数据包功能,允许不同的设备间相互通信。路由器(Router)亦称选径器,工作在网络层,实现相互连接,基于 IP 实现寻址,将不同的子网络相连接。
传统的数据中心往往使用三层架构,即接入层、汇聚层、核心层,而在小型的数据中心中,可以忽略汇聚层的存在。其中,接入层通常直接与服务器相连,常用的接入交换机常为TOR(Top of Rack)交换机。汇聚层是网络接入层和核心层的 “中介(中间层)”。核心交换机为进出数据中心的包提供转发,并为汇聚层提供连接性。
传统的三层网络有较为显著的缺点,并且随着云计算的发展,这些缺点愈发突出:⚫ 带宽浪费:每组汇聚交换机管理一个 POD(Point Of Delivery),每个 POD 内都是独立的 VLAN 网络。汇聚交换机和接入交换机之间通常使用 STP(Spanning Tree Protocol,生成树协议)。STP 使得对于一个 VLAN 网络只有一个汇聚层交换机可用,其他的汇聚层是被阻塞的,同时这也导致汇聚层无法水平拓展。
⚫ 故障域大:由于 STP 的算法,网络拓扑变更时需要重新收敛,容易发生故障。
⚫ 时延较长:随着数据中心的发展,东西向流量大幅增加,而三层架构间服务器之间的通信需要层层经过交换机,造成了较大的时延,且核心交换机和汇聚交换机的工作压力不断扩大,性能升级也造成成本的上浮。
叶脊架构优势明显,具有扁平化设计、低延迟、具有带宽高等特点。叶脊网络(leaf-spine)使得网络扁平化,其中叶交换机相当于传统的接入层交换机,脊交换机类似核心交换机。
叶和脊交换机之间通过 ECMP(Equal Cost Multi Path)动态选择多条路径。当 Leaf 层的接入端口和上行链路都没有瓶颈时,这个架构就实现了无阻塞(Non blocking)。因为Fabric 中的每个 Leaf 都会连接到每个 Spine,所以,如果一个 Spine 出现问题,数据中心的吞吐性能只会有轻微的下降(SlightlyDegrade)。
Q:英伟达交换机=IB 交换机?
A:不是。英伟达 Spectrum 和 Quantum 平台,同时布局了以太网和 IB 交换机。
#解析英伟达 Spectrum 和 Quantum 平台,同时布局了以太网和 IB 交换机。IB 交换机主要由厂商 mellanox 运营,英伟达于 2020 年成功将其收购。此外,英伟达 Spectrum 平台的交换机主要基于以太网,旗下产品不断迭代,2022 年发布的 Spectrum-4 是 400G 交换机产品。
Spectrum-X 针对生成式 AI 所设计,优化了传统以太网交换机的限制。NVIDIA SpectrumX 平台的两个关键元素是 NVIDIA Spectrum-4 以太网交换机和 NVIDIA BlueField-3 DPU。
Spectrum-X 的主要优势包括:
⚫ 将 RoCE 扩展用于 AI 和自适应路由(AR),以实现 NVIDIA 集合通信库(NCCL)的最大性能。NVIDIA Spectrum-X 能够在超大规模系统的负载和规模下实现高达 95% 的有效带宽。
⚫ 利用性能隔离来确保在多租户和多作业环境中,一个作业不会影响另一个作业。
⚫ 确保在出现网络组件故障时,网络架构能够继续提供最高性能。
⚫ 与 BlueField-3 DPU 同步,实现最佳 NCCL 和 AI 性能。
⚫ 在各种人工智能工作负载下保持一致和稳定的性能,这对实现 SLA 至关重要。
在组网方式中,IB 还是以太网是个重要的问题。目前的市场中,以太网占据了绝大部分的市场份额,但是在一些大规模的运算场景中,IB 又一枝独秀。ISC 2021 超级计算大会上,在 TOP10 的系统中 IB 占据了 70%的份额,在 TOP100 中 IB 占据 65%的份额。随着考虑范围越来越大,IB 的市场份额越来越低。
Spectrum 和 Quantum 平台针对不同的应用场景。在英伟达的设想中,AI 应用场景可大致分为 AI 云和 AI 工厂,在 AI 云中可以使用传统以太网交换机和 Spectrum-X 以太网,而在 AI 工厂中则需要使用 NVLink+InfiniBand 的方案。
Q:英伟达 SuperPOD 如何理解?
A:SuperPOD 是服务器集群,通过将多个计算节点相连,以提供较大的吞吐性能。
#解析以英伟达 DGX A100 SuperPOD 为例,英伟达官方推荐的配置中使用的交换机为 QM9700,能提供 40 个 200G 端口。由于其采用的架构为胖树(不收敛)架构。在第一层中, DGX A100 服务器共有 8 个接口,分别接入 8 个叶交换机,20 台服务器组成一个 SU,因此共需8*SU 台服务器,第二层架构中,由于网络不收敛,且端口速率一致,因此脊交换机提供的上行端口要大于等于叶交换机的下行端口。因此,1 个 SU 对应 8 台叶交换机和 5 台脊交换机,2 个 SU 对应 16 台叶交换机和 10 台脊交换机,依此类推。此外,当 SU 数量增至 6 个以上时,官方推荐加入一层核心层交换机。
--- 报告摘录结束 更多内容请阅读报告原文 ---
报告合集专题一览 X 由【报告派】定期整理更新
(特别说明:本文来源于公开资料,摘录内容仅供参考,不构成任何投资建议,如需使用请参阅报告原文。)
精选报告来源:报告派
科技 / 电子 / 半导体 /
人工智能 | Ai产业 | Ai芯片 | 智能家居 | 智能音箱 | 智能语音 | 智能家电 | 智能照明 | 智能马桶 | 智能终端 | 智能门锁 | 智能手机 | 可穿戴设备 |半导体 | 芯片产业 | 第三代半导体 | 蓝牙 | 晶圆 | 功率半导体 | 5G | GA射频 | IGBT | SIC GA | SIC GAN | 分立器件 | 化合物 | 晶圆 | 封装封测 | 显示器 | LED | OLED | LED封装 | LED芯片 | LED照明 | 柔性折叠屏 | 电子元器件 | 光电子 | 消费电子 | 电子FPC | 电路板 | 集成电路 | 元宇宙 | 区块链 | NFT数字藏品 | 虚拟货币 | 比特币 | 数字货币 | 资产管理 | 保险行业 | 保险科技 | 财产保险 |