这是史上最快GPU!我们测了四张H100!价值120万元!

关于18:15的多卡反而更慢,有一些话说:多卡训练有许多种策略,最主要的策略是以下两种。
一种是利用多卡的计算规模进行并行计算,将数据集被平均分为多份,每个卡上保存完整的模型参数并独立处理一份子数据集,以加速模型训练过程,这种一般我们叫“数据并行”;
另一种是将模型的不同层放置到不同的计算设备,降低单个计算设备的显存消耗,从而实现超大规模模型训练,这种我们一般叫“流水线并行”。
可以看到两种并行策略的设计思路是完全不同的,一种是为了加速,另一种是为了突破显存瓶颈。流水线并行策略对设备的利用率比较低,在最简单的流水线并行中,任意时刻只有单个计算设备处于计算状态,其它计算设备则处于空闲状态,因此设备利用率和计算效率较差。有一些优化方法进一步将 mini-batch 切分成若干更小粒度的 micro-batch,以提升流水线并行的并发度,但计算效率仍然会不如单卡。
从我自己做AI训练的经验来说,即使没有NVLink,多卡反而不如单卡也是不太会在那个规模的模型上发生的。我认为这一现象的原因并非在于NVLink,而在于训练时默认采用了流水线并行而不是数据并行。
以上,仅供大家参考。