欢迎光临散文网 会员登陆 & 注册

科技深喉:老黄带大家在自家ai花园里挖呀挖

2023-05-31 13:29 作者:Deepman谈  | 我要投稿

前天,老黄给我们展示了一套NVIDIA DGX GH200的超级计算机,我给大家聊聊它的特点:

1. 它的核心基于GH200 Grace Hopper超级芯片,这块芯片将72 核的Grace CPU、H100 GPU、96GB 的 HBM3 和 512 GB 的 LPDDR5X 集成在同一个封装中。


2. 这么复杂的SoC,集成这么强大的硬件性能,Tile间通信首先就是大问题。这块超级芯片使用NVIDIA NVLink-C2C芯片互连,CPU 和 GPU 间的数据带宽达到 900GB/s,这跟苹果m1 ultra的2.5TB/s的Die间带宽还不是一回事,异构通信明显限制要多得多。

3. 算力上,这块超级SoC的晶体管数量高达 2000 亿个,而NVIDIA DGX GH200最多可将256个GH200芯片集成为一个单元,系统用的也是专门打造的NVLink Switch System(包含 36 个 NVLink 开关)。

4. 超级计算机两个维度,一个是算力,一个就是数据流转和存储能力,256个GH200芯片集成的单元共用的是144TB的共享内存,这个单元内存规模也是绝无仅有的。另外它的网络通信能力也是业内顶级的存在,我就不展开说了。

5. 我之前看同行报道这事儿时多了一句嘴,NVIDIA是有整机能力的,其中就包含这个设计上非常成功,市场上非常失败的Grace CPU,因为第三方开发者重新为arm构架开发应用代价非常大,所以老黄自己上手,在ai新赛道上带上了它,自家儿子,在外闯荡失败回到家族企业,不总要扶持一把嘛。

老黄为什么要做NVIDIA DGX GH200,说白了因为之前大家都直接采购n100、a100,放在自己构架的系统上,老黄心里急啊,大把的钞票,不能就这么放过啊,自己又不是没有系统级的整合能力。


应该说,NVIDIA DGX GH200采用的NVLink Switch 拓扑结构还是很先进的,虽然是首次拿出这类构架,但从Tile间通信能力来看,还是非常成功的——他的GPU到GPU带宽,和CPU到GPU的带宽分别达到之前系统的10倍和7倍,还拿出了比竞争对手(我就不提名字了)高出 5 倍的互连功耗效率和高达 128TB/s 的对分带宽。最难能可贵的是系统级的通信能力,让他如同一块GPU一样快速高效。

NVIDIA DGX GH200前景怎么样,说实话,这部分能割韭菜的就只有中小规模没有系统开发能力的厂商,像#阿里云# 这样的大厂商都需要将ai硬件能力放入到具体的业务场景中去,只讲TFLOPS(最大运算能力)的NVIDIA DGX GH200就不那么适合了。当然,现有的情况下,阿里云应该是采购不到NVIDIA DGX GH200的。

据老黄说,谷歌云、Meta和微软会首批采购NVIDIA DGX GH200,也不排除一种情况,NVIDIA会根据客户的业务模型对产品做深度订制,整合硬件能力的是NVIDIA DGX系统,说是能加速设计和部署的效率,这个系统最后会呈现出怎样的运行状态,甚至比硬件构架更为重要。

另外还有一个提升云端服务能力的Spectrum-X网络平台,说白了就是一个以太网堆栈,核心技术其实还是多方授权的,并不是NV的核心能力。

讲到这里,我觉得差不多了,NVIDIA本来就在AI浪潮里挖到第一桶金,利用系统整合能力继续挖,无可厚非。

那句歌词怎么说的,在ai的世界里挖呀挖呀挖,最后都种成了老黄家花园里的花........


科技深喉:老黄带大家在自家ai花园里挖呀挖的评论 (共 条)

分享到微博请遵守国家法律