Ampere架构Geforce显示核心详细预测,看完你就可以假装英伟达内部人员了

从2019年中开始,有关Nvdia下一代Ampere架构显示核心的消息就越来越多了。随着三月底GTC大会的临近,相关的消息在增加,关于Ampere各显示核心的细节也渐渐明确。
之前爆出的消息最主要的还是关于Tesla或Quadro计算卡的,而黄仁勋在GTC2020大会上发布的新卡似乎也不会是玩家们关心的Geforce系列。不过最近外媒发布了一些关于Geforce端新核心的信息(见下图),虽然只是关于没有被刀法动过的完整核心的而不是显卡,但仍令人兴奋。

外媒的报道中的CUDA数字,我个人认为最为可信的是GA102的CUDA数量为5376这一点。符合Nvidia最近几代Geforce系列完整核心的发展规律。而关于GA103的3840这一数字并不正常,更像是直接照搬一月份一外国博主发布的很可能不真实的“小道消息”。原因在后面我会解释。
当然,up主写下这篇专栏的目的并不是介绍新闻,而是对于这篇爆料的分析以及我个人对下代Geforce显示核心预测。
欲要知来者,必先解古人
在对即将到来的新RTX显卡进行合理的预测之前,了解前几代Geforce核心架构的发展分析是必要的。

这三代大核心的CUDA数量看起来没有什么规律可言是因为这三者都不是完整核心,实际上三代的完整核心GM200拥有3072个CUDA,GP102拥有3840个,Tu102拥有4608个,这三个数字形成了一个等差数列,公差为768,也就是每一代较上一代增加768个。
但是为什么增加每一代都增加768个呢?这就和Nvidia的模块化GPU设计方式有关了。
对于每一代Fermi架构之后的Nvdia SP(流处理器)GPU,Nvida都采用了从CUDA(流处理器)核心-SM(多流处理器)单元-TPC(纹理处理器簇)-GPC(图形处理器簇)到GPU核心的多级模块化组合的方式。
以Turing架构为例,具体为:一个SM单元包含64个CUDA核心,8个Tensor Core张量核心,1个RT Core光追核心以及对应的缓存等。SM单元是事实上GPU的基本计算单元,每一个Turing架构的显示核心都是由很多个如图的SM单元组成的。

一个TPC包含两个SM单元,一个GPC包含六个TPC单元,一个TU102核心包含六个GPC。所以完整的Tu102核心包含的72个SM单元,也就是4608个CUDA,576个张量核心和72个光追核心。

然而老黄用精准的刀法屏蔽了两个TPC,所以市售的RTX2080Ti使用的Tu102-300核心拥有68个SM单元,也就是4352个CUDA核心,544个张量核心和68个光追核心。
如果翻出更早的Pascal架构的GP102核心和GM200核心,就可以发现它们最大的不同就在于每一个GPC拥有的TPC数量上。GM200的一个GPC有4个,GP102有5个再算上Tu102有6个,又是一个等差数列。(下图中的GP100核心是GP102核心的计算卡版本,供给TeslaP100使用,除每一个CUDA中增加了一个FP64核心以外设计区别不大)


很明显,每一代大核心都有6个GPC,但GPC内TPC数量递增,也就是每代每GPC较上一代增加128个CUDA,共计增加768个。
预知未来!
关于Ampere架构的新Geforce大核心,按照上面的结论,每个GPC含有的TPC应为7个,所以GA102应有42个TPC,也就是84个SM单元,换算成各核心数量为5376的CUDA,672个张量核心,84个光追核心。当然,为了提高良品率,Nvidia对于Geforce系列大核心向来是要动刀的,惯例是两个TPC,到了RTX3080Ti手里就剩下5120个CUDA了(这个数字真的顺眼)。
而对于次旗舰核心(GA103?),由于一个GPC含7个TPC,该核心的CUDA数只可能为896的倍数,无论如何也凑不出3840这个数字。一般而言次旗舰核心应是旗舰的三分之二,也就是4个GPC,所以这一代的次旗舰完整核心可能有3584个,当然如果进行屏蔽,对于RTX3080,诸如3456,3328这样的数字也是可能出现的。
高端甜品级核心(GA104?)一般是旗舰核心的一半,也就是3个GPC,完整核心CUDA数量为2688个,屏蔽后可能为2560等。


竟然最多只能写2000字!还有好多没说啊...
只有新人up会这么不怕死,做这种搞不好就脱靶的预测,你看我预测也写了三个核心,所以......
硬币可以不投,赞点一下嘛,还有关注,以后会写更多有意思的东西的。