欢迎光临散文网 会员登陆 & 注册

新n卡 如此多的流处理器+新架构安培+7纳米 amd是否还能yes?

2020-02-28 15:00 作者:我的DIY之路  | 我要投稿

如果是大佬想讨论的 请看完整篇文章  

若只是想获得新n卡消息麻烦拉到最低下  本文已获得他人转载同意  若不吱声的搬运我的文章  一通算抄袭处理

抄袭行为可耻 望各位观众老爷们理解 那么开始吧


既然安培架构图已经公布,我之前所有猜测基本都是打脸,因为我之前对NV新产品的预估【还是保守了点,因为我也不敢相信提升会太大】


看来实际的情况【比我预估的要乐观了好多倍,虽然性能提升是乐观的。但反过来说:价格提升多少,或者怎么定价。都是NV去决定了】


首先感谢吧友Rye对安培架构图曝光的帖子进行转载,我这里打算做一个科普性质的内容集中贴。

来说说个人对曝光的信息进行的一些分析和看法:
首先我们还是先看看原贴曝光的人,对安培架构的一些阐述。【我们先看看他这些阐述,是不是专业的。或者靠谱不靠谱】


首先我跟大家说:【判断一个人说话是不是真的,或者靠谱不靠谱:绝对不能看数值!一定要看他提到的内容,是不是有理有据,而且能不能用真货加以论证,能不能在现有历史基础上进行呼应。如果能做到,他说的这种思路。就不能轻易否定,因为否定也有要有足够站得住脚的理由:不能光一句(我不信老黄这么良心提升那么大,这一句非常流氓的话来否定别人。)】


首先我给大家翻一下:


1、INT32仍旧是每个SM固定数量对比图灵架构没本质提升【基本就是原地踏步】
2、每一个SM内部FP32单元翻倍了
3、每一个SM内部Tensor翻倍
4、L1缓存从98k提升到128k。
5、RT核心变成了先进RT核心。


以上5个点,很多人光看这5个点【必然各种不信,心存疑虑,认为这个提升幅度过于巨大了】
所以我们必须通过这个人实际拿出来的证据,加以论证判断他说的是不是属实。能不能呼应


安培架构示意图

首先我们来看看,这个爆料人配套公布的【安培架构ALU团簇结构图】的信息,这个信息数据量还是很爆炸的。基本上如此高清的SM结构图【绝对不是个人轻易做出来的,而是NV官方的东西几率很大。如果个人去做这样一个很高清的图,那么费时费力,正常脑子的人是不会YY这样一个图的。而且这种图一旦做不好,马上就会被暴露很多坐标对不上,比例不搭的问题。导致被细心的网友看出来】


所以我个人认为【可以排除私人制作的可能性,因为私人没这种时间去做这么复杂的东西。一旦做的不好,会被看出来,被喷。一旦做的很完美,也不会拿到一分钱。还费时费力。正常脑子的人不会去做,就比如:我也不会去做这种图,就算能做。也懒得去做】


所以可以判断:这种图来自于【NV内部,或者合作伙伴内部的某些白皮书文件里面,绝对不是个人瞎做的。】


回过头来分析架构:


先看架构图,估计很多人会认为很晕,看不懂。那么我们不去疯狂扣那些【根本看不懂的英文鸟语地方,我们就看能看得懂的那部分】


就说说FP32单元把。我们可以清楚的看到:【一个ALU团簇内,也就是一个SM内部。被分为4个区块。每个区块大概有一个统一逻辑控制管理。这个结果仍旧是模仿最初麦克斯韦架构的设计。 而每个区块里面的FP32单元,是16个。大家可以数数是不是。 而每个SM是4个区块,总计就是16X4=64个CUDA FP32。这点大家都可以看出来】


此外大家还可以看到下图图灵架构的SM结构图,里面INT32和FP32,是完全一样的比例。一比一存在。仍旧也是16个。此外,还有2个Tensor。以及一个很大的RT核心。构成了图灵架构一个ALU团簇。


所以总计:一个图灵架构的SM内部,分为4个区域。每个区域2个tensor 16个INT32以及16个FP32。 整体是4个区域,总计就是64个FP32和64个INT32,以及8个Tensor,配合一个最终作为最下端输出的RT核心。构成了。


所以图灵架构的ALU团簇完整就是:64 INT32 64FP32 8Tensor 1RT核心

图灵架构对比图


然后大家看看安培架构的ALU团簇结构图:
你们可以对比图灵架构那个,看出很多细节区别:


首先我给大家一个一个解释:、


1、可以看到,安培架构仍旧一个SM内部,还是分成4组区块
2、但是我们细节去看一个区块,内部的FP32单元数量,不再是16个,而是32个!
3、然后我们再看右侧,这个区块内,不再是2个Tensor,而是分成了4个!
4、然后我们看最下端整体的共享L1缓存,是这4个区块都使用同一个LV1缓存整体,但从图灵架构的96k到了128k
5、我们继续看最下面末端的RT 核心,从普通版RT核心变成了【高端advance版本的RT核心】


所以大家看出来区别了吧?
================================================
总结一下:
1、安培架构一个ALU内部,INT32单元,没有任何变化。还是64个
2、但是ALU内部的每个区块内的FP32单元,从16变成了32。4个区块总计就是一个SM最终有128个CUDA FP32。意味着翻倍CUDA。
3、既然FP32翻倍,那么没理由FP16不翻倍,很遗憾:图灵架构和安培架构都是Tensor负责FP16,那么结果就是:每个区块内Tensor也从2个变成4个。4个区块就是总计16个Tensor,对比图灵架构也是翻倍了
4、L1缓存扩大了一些。
5、RT核心升级内核版本,哪怕同一个频率下。仍旧是性能有1.5倍提升没问题。所以RT核心数量没有提升。






==========================================


所以总结就是:和爆料人的说法【完全一致】
有理有据,不容置疑!! 你没有质疑他的技术资源,也没办法从技术角度论证去质疑。除非是胡搅蛮缠。否则确实没办法去推翻它的说法。


所以图灵架构对比安培架构,老黄新版本的架构大改了SM结构。【与我之前的说法,打脸】


因为本人说的是【安培架构,对比图灵架构应该是马甲堆料提升,架构效率不会有很大变化,SM结构不会变化很大,而是增加SM数量,提升密度为主。这是本人之前说的话】


但现在,打脸。


实际老黄怎么做呢?【和之前帕斯卡和麦克斯韦架构不一样,麦克斯韦架构28nm到帕斯卡架构16nm。老黄几乎效率原地踏步,每个GPC内部仅仅比麦克斯韦架构,提升了一组SM。可以说CUDA也没有提升太大,真正提升巨大是频率。因为16nm比28nm足足提升几乎400-500MHz频率。而boost 3.0直接让频率飞上天了。这才是本质提升!】

GA104

而老黄在安培架构和图灵架构里面,提升幅度,完全不同于当年16nm到28nm。
而是【架构大体框架没改,GPC和TPC结构都没改。反倒是把ALU团簇这个底层计算单元团簇给大改了。完全是每个团簇内部的FP32和Tensor直接翻倍,RT核心也大幅度改进内核!并非优化了密度,而是靠着新工艺nm带来的同一个尺寸内密度提升,直接重新排列了FP32和Tensor结构,大幅度改进了密度。让FP32和Tensor直接翻倍!但SM数量没有提升】

所以大家看看爆料人拿出来的GA104架构图,实际上。你对比图灵架构【这完全是是一个结构嘛,根本宏观没有改进。还是6GPC,而且仍旧是32bit 一共8组显存控制器。总计256bit】、


但是你看看SM改了多少? 虽然还是6GPC。GP104仍旧是每个GPC内部,只有8个SM
但是换来的却是,翻倍的CUDA数量和Tensor数量。同等级别RT核心数量。以及升级新版本RT内核。


结果就是GA104,虽然SM数量总计还是48组。
但换来的是:
128X48=6144个FP32 
64X48=3072个INT32。
48X1=48个新版本加强RT核心
48X16=768个Tensor
32bit X8 =256bit 显存控制器


瞬间,除了显存位宽固定MC 256bit【可以说这个GA104全面指标超过了TU102,就是这么可怕】


GA103

我们再看看另外一张GA103的结构图。
这个就更吓人了,虽然还是6GPC。但是每个GPC内部,多了两组SM。对不对?
那就是10组了。而且MC,也从8组32bit 变成10组32bit 


结果就是GA103,虽然SM数量对比TU102有所削减,不是72个。而是每个GPC内部10组SM,一共6个GPC就是60组SM


但换来的是:
128X60=7680个FP32 
64X60=3840个INT32
60X1=60个新版本加强RT核心
60X16=960个Tensor
32bit X10 =320bit 显存控制器


===================================================
所以以上,我们虽然不能确定安培架构的Rops对比图灵架构有所提升。
但光看规格和SM结构图,可以判断:GA103对比TU102,毫无疑问是【规模少了一些,因为没有做到72SM。而是60SM。这也就是为什么老黄给他交GA103,因为他是个320bit核心。不是384bit】


所以GA103是一个GA104和GA102之间的核心。


但是GA103这次确实很大几率是3080Ti首发核心,因为GA103足足7680个SP。就算频率还是这一代1800-2000MHz原地踏步的频率,他的性能对比TU102也是50-60%提升了。毕竟SP都提升了1.4倍了。

老黄这一次GA104提升幅度过于巨大,6144个CUDA基本石锤。
而为了降低3080Ti的性能,老黄故意给了GA103,没敢给GA102。不给72SM。
为什么?因为72SM几乎9200个CUDA。根本用不上了。或者AMD根本追不上毫无意义


所以问题来了:【市场外部代号产品的SKU该怎么应对?】


如果GA103和GA104提升这么大,GA102估计可能延期到2021年去了?我认为合理!


所以这么看,最坏的结果:


这一代是这样的。


New RTX Titan GA103 320bit 完整版GA103 60SM 可能7680 SP 320bit 40GB 性能大约是2080Ti 180-190% 价格2499 
3080Ti GA104阉割版 42SM 5376 SP 256bit 16GB 预计999美元,性能大约是2080Ti的140-150%
3080 GA106完整版 36 SM 4608 SP 256bit 16GB 预计699美元 性能大约2080Ti的122%
3070 GA106阉割版 30 SM 3840 SP 256bit 16GB 预计499美元 性能等同于2080Ti
3060 GA106阉割版 3072SP 192bit 12GB 预计399美元,性能等于2080 Super
3050Ti GA107完整版 2560 128bit 8GB 预计279美元,性能等同于2070

3050 GA107阉割版 2048 128bit 8GB 预计 199 ,性能等于2060

么2021年的情况,我觉得一如既往:

New RTX Titan 完整版GA102 72SM 可能9216 SP 384bit 48GB 性能大约是2080Ti 220-230% 价格2499 
3080Ti Super GA103阉割版 56SM 7160 SP 320bit 20GB 预计999美元,性能大约是2080Ti的170-180%
3080 Super GA104完整版 48 SM 6144 SP 256bit 16GB 预计699美元 性能大约3080Ti 120%
3070 Super GA104亚呢吧 42 SM 5376 SP 256bit 16GB 预计499美元 性能等同于3080Ti
3060 GA106完整版


你后续基本能猜出来。【老黄是肯定拆分成2-3年内发布这些东西,你给你牙膏慢慢挤】


我的核弹天下无敌


新n卡 如此多的流处理器+新架构安培+7纳米 amd是否还能yes?的评论 (共 条)

分享到微博请遵守国家法律