史上最短命的A卡架构? HD6970架构简析&杂谈

2022-04-03 16:30 作者:LG-1314 0人读过 | 我要投稿

2019年,AMD发布了RX5700XT,其公版散热器上有一道明显的凹痕,苏博士称其可以改善风道,

而”A炮”们也亲切的称其为”苏妈之握”:即每一张RX5700XT都是Lisa.su亲手捏出来的.

现在的这只是玩笑,殊不知十余年前,AMD真发挥了工匠精神,

不过当年这个打磨,可和19年的苏妈之捏不同,

一个不捏,是不要脸,只是外观会单调点,丑点;

另一个不磨,是不要命,会导致散热器装不上去:

当年HD6900系公版显卡在设计完散热器后,才发现其与供电端子有冲突,情急之下,只能将每一张HD6900系的供电接口都人工打磨才安装正常,

且每张的痕迹都些许不一样,个性化了属于是(至于)

那为啥当年AMD的研发人员竟如此大意?

我想,这大概和他们研制新架构过于紧张有关罢~

(注:文笔不佳,整理粗糙,如有谬误,还请纠正!资料来源超能网,TPU等等,均保留原水印)

架构解析:“天弃之子”？

2010年,是ATi 作为子品牌的最后一年,同时AMD也切迫切需要新显卡架构应对NV的关键时刻.且不说老黄的费米架构对DX11优化更佳,A卡原来的(Treascale2)Vliw5架构应对现代软件的复杂指令组合,执行效率也低下(最低小于80%),并且若继续堆规模作为新旗舰,将会丧失性价比优势,况且已经从HD2900XT堆到HD5970了.

这已经不是一般老的架构了,必须要出重!拳!了(大嘘)

但AMD收购ATi后,和你一样,五行缺钱,不想花重金大改,只想扣成本,于是,就小修小改出了(Terascale3)Vliw4这种治标不治本的架构.

其最大的变化是微观上,单个Vliw单元内,

从原本的4个普通型加 1个 特殊函数型流处理器，俗称Vliw5（5D或4D+1D),

变成了4个增强型流处理器,俗称Vliw4(4D)，

为什么叫超长指令字节单元呢? 简单来讲,就是输入给流处理器的指令由多个子指令构成超长指令,优点之一是可以提升处理的并行效率,

缺点包括,不适应乱序执行 (Out of Order)等可提升处理器效率的技术,即面对新游戏,新软件,较为低效↓

然而宏观的总线结构没有变,还是SIMD,即单指令多数据流,即处理数据的方式是:

多个数据流分配给多个处理单元,由单个指令统一操作这些单元,且适应前面提到的4D操作的形式,

Terascale3沿用Vliw和SIMD的体系，注定导致低效等缺陷依旧存在.

相比之下,老黄这边的武德充沛的费米架构, 是类似MIMD体系,GPC”流处理器簇”也比ATi的SIMD阵列灵活多变,效率高,

同时对比N卡规模时,Teracale总的流处理器数量要➗4或5才能近似对比,

因为一个”CUDA”对标的是一个VLIW单元(内部包含4或5个流处理器)

另外A卡的DX11兼容性也未改善.

那它究竟改善了啥?oh,改善了双精度性能,从1:5上升到1:4! 不过这对游戏玩家意义不大.

然而!4D结构带来了新的缺陷：功耗上涨，

其主要原因是流处理器对应的指令端,寄存器等等的增加，即附加的晶体管更多了

HD5870只有21.5亿晶体管数与 334mm2的核心面积,TDP只有188W

而HD6970达到了惊人的26.4亿晶体管数，389mm2核心面积,TDP跃升至250W,增大近30%

性能却只提升了19%,也就是说能耗比反而还退步了,一顿操作猛如虎, 一看进步出现负

从发布会上看HD6970改进非常多,资源也很足:

有新的双图形引擎带来更好的曲面细分,有Powertune动态调节电压与频率等等,

而且前后端晶体管分配数量虽然合理,

只因魔改了低效老旧的SIMD和Vliw结构使用,酿成悲剧.

另外AMD应该是由于研发周期问题,

在中低端的HD6000系显卡中,架构选用稍作调整的Terascale2(Vliw5),比如HD6870的Barts核心

(或者像HD6770直接马甲HD5770),

再下一代HD7000系列又直接升级为GCN架构,

因此Cayman核心,的HD6900系,就成了前无古人后无来者,

名副其实,唯一Terascale3(Vliw4)架构的独显核心,

(之所以怎么说,是因为Richland等架构的APU集显也是TS3架构的)

真可谓是”天弃之子”,抛弃的”qi”,这在A卡的历史上是极其罕见的.

但这个核心也有很多A卡的传统异能,其中之一就是:开核!

(稍微提一下fire pro V5900这个奇葩卡,也是Cayman核心,但规模愣是从1536SP砍到只有512SP,简直是屠龙刀,不过这个情况在老黄那边也有,无非都是处理边角料了)

价格对抗:”核”战

与AMD这个穷小子不同,NV是腰缠万贯的黄老板,手一挥就是大核心,

凭顶尖性能主导话语权,来定高价赚钱,

不过回报越高,风险越高,若功耗翻车,就惨了

上一代GTX470就是个例子, 初代费米架构40nm没打磨成熟,

导致其GF100-275核心频率上不去,功耗也高达216W, 首发349 USD

反观隔壁HD5870,性能更佳,功耗却只有188W,不过价格自然高了点, 首发399 USD

而第二代费米优化了制程(还有BIOS限制功耗),第二代次旗舰GTX570与前代旗舰480规格几乎一样,TDP却仅219W,(多半有续保仅供参考)

再反观隔壁AMD功耗却上升了

最终导致这一代HD6970性能和定价对比GTX570都是劣势,功耗还半斤八两

*(所以NV的新旗舰GTX580只能留给上代双芯卡HD5970去撼动了.)

另外,此时A卡仍只在DX9与DX10的游戏中有点优势,

所以A卡旗舰缺了点竞争力怎么办呢?

答案是:走老路子!仍然靠开核吃点软饭,

以前HD4830能开成4850,这次我们再来一个小馈赠!

开核有一个条件,那就是被开的芯片的PCB需与目标开成型号的PCB基本相同,以保证电气结构一样,运行完好, 上代隔壁NV拉跨,ATI没考虑这点,5850和5870PCB差距较大,

而这代HD6900系旗舰和次旗舰PCB规格就完全一样,

除了供电端口一个是8+6pin,一个是6+6pin

而且AMD从这代开始还贴心的提供了双bios开关,防止刷坏.

“花低点的价格, 仅花$299 ,买个HD6950,再开核,获得GTX570的性能,节约$50”

正所谓是消费者总想贪点小便宜,是AMD总想耍点小聪明,

借用消费者的碰运气心理提升销量,两全其美了属于是*(还可以烧录bios进行开核)

然而老黄不是吃素的,他一直有Bear而来:你想靠开核整点小活,那我就给你来点大家伙!

几个月之后GTX560ti的推出,打破了AMD的美梦.使用了完整的GF114核心, 性能和6950几乎一样, 功耗更低,约170瓦(仍仅供参考),价格更低,只需249 USD起,

面对50美元的差价, 再加上DX11游戏对NV优化更好, 以及2GB显存真的不是刚需,

很快嗷,当时AMD就流眼泪了,(马老师口音)“刀法这一块,还是老黄做的快!”

不过,与此同时,世界上还有另外亿点点小事需要显卡,且更有利于A卡销量增加,但它并不能使普通用户开心起来,

因为那件事,是第一次比特币矿潮.

万恶之源:中本聪

当年挖矿对显卡的市场冲击不亚于现在,

HD5970首发价五千元左右,当年能被矿老板炒到八千元,

但今天最低只要300多元就可以拿下了,想必3090过十年也是这样的命运吧.

与这两年的虚拟货币矿潮不同,当年的比特币矿潮还很单纯, 什么“比特金，莱特银，无限铜，便士铝”,毕竟这个概念以及矿机,矿池等等都还刚刚问世.更别提,硬盘,笔记本,三缓挖矿,以及乱七八糟的小币种了.

不过有一点任何矿潮时期都是相同的,那就是唯算力论!

(以下资料来源https://www.chiphell.com/thread-754064-1-1.html)

据查询,在13年, GTX570则只有124.2Mh/s,

定价接近的HD6970的比特币算力达到了376.2Mh/s,

甚至连初代GTX Titan都只有三百Mh/s,

有人会疑惑,现如今一张RTX3090的以太坊算力也就120Mh/s,怎么这些老卡比它还好?

那是因为算法等方面不同导致的,摘抄一段超能网的原话:

“实际上目前(13年)比特币的计算是基于SHA-256算法的，这个算法会有大量的位操作“Right-Rotate”，对于这个操作AMD显卡原生只需要1个硬件指令，而NVIDIA卡则需要用3个硬件指令来模拟，因此即使运算单元数量接近，AMD显卡的挖矿效率仍然比NVIDIA显卡要高。”

可以看出,A卡的”单指令多数据流(SIMD)”的架构在当时挖矿确实高效,

在当年矿潮可谓是大受欢迎.

Chubbyemu的这期视频就是铁证如山, https://www.bilibili.com/video/BV1w54y1V78y