史上最短命的A卡架构? HD6970架构简析&杂谈
2019年,AMD发布了RX5700XT,其公版散热器上有一道明显的凹痕,苏博士称其可以改善风道,
而”A炮”们也亲切的称其为”苏妈之握”:即每一张RX5700XT都是Lisa.su亲手捏出来的.

现在的这只是玩笑,殊不知十余年前,AMD真发挥了工匠精神,
不过当年这个打磨,可和19年的苏妈之捏不同,
一个不捏,是不要脸,只是外观会单调点,丑点;

另一个不磨,是不要命,会导致散热器装不上去:

当年HD6900系公版显卡在设计完散热器后,才发现其与供电端子有冲突,情急之下,只能将每一张HD6900系的供电接口都人工打磨才安装正常,

且每张的痕迹都些许不一样,个性化了属于是(至于)

那为啥当年AMD的研发人员竟如此大意?
我想,这大概和他们研制新架构过于紧张有关罢~
(注:文笔不佳,整理粗糙,如有谬误,还请纠正!资料来源超能网,TPU等等,均保留原水印)
架构解析:“天弃之子”?
2010年,是ATi 作为子品牌的最后一年,同时AMD也切迫切需要新显卡架构应对NV的关键时刻.且不说老黄的费米架构对DX11优化更佳,A卡原来的(Treascale2)Vliw5架构应对现代软件的复杂指令组合,执行效率也低下(最低小于80%),并且若继续堆规模作为新旗舰,将会丧失性价比优势,况且已经从HD2900XT堆到HD5970了.

这已经不是一般老的架构了,必须要出重!拳!了(大嘘)
但AMD收购ATi后,和你一样,五行缺钱,不想花重金大改,只想扣成本,于是,就小修小改出了(Terascale3)Vliw4这种治标不治本的架构.
其最大的变化是微观上,单个Vliw单元内,
从原本的4个普通型加 1个 特殊函数型流处理器,俗称Vliw5(5D或4D+1D),
变成了4个增强型流处理器,俗称Vliw4(4D),

为什么叫 超长指令字节 单元呢? 简单来讲,就是输入给流处理器的指令由多个子指令构成超长指令,优点之一是可以提升处理的并行效率,
缺点包括,不适应乱序执行 (Out of Order)等可提升处理器效率的技术,即面对新游戏,新软件,较为低效↓

然而宏观的总线结构没有变,还是SIMD,即单指令多数据流,即处理数据的方式是:
多个数据流分配给多个处理单元,由单个指令统一操作这些单元,且适应前面提到的4D操作的形式,

Terascale3沿用Vliw和SIMD的体系,注定导致低效等缺陷依旧存在.
相比之下,老黄这边的武德充沛的费米架构, 是类似MIMD体系,GPC”流处理器簇”也比ATi的SIMD阵列 灵活多变,效率高,

同时对比N卡规模时,Teracale总的流处理器数量要➗4或5才能近似对比,

因为一个”CUDA”对标的是一个VLIW单元(内部包含4或5个流处理器)
另外A卡的DX11兼容性也未改善.
那它究竟改善了啥?oh,改善了双精度性能,从1:5上升到1:4! 不过这对游戏玩家意义不大.
然而!4D结构带来了新的缺陷:功耗上涨,
其主要原因是 流处理器对应的指令端,寄存器等等的增加,即附加的晶体管更多了
HD5870只有21.5亿晶体管数 与 334mm2的核心面积,TDP只有188W
而HD6970达到了惊人的26.4亿晶体管数,389mm2核心面积,TDP跃升至250W,增大近30%
性能却只提升了19%,也就是说能耗比反而还退步了,一顿操作猛如虎, 一看进步出现负

从发布会上看HD6970改进非常多,资源也很足:
有新的双图形引擎带来更好的曲面细分,有Powertune动态调节电压与频率等等,
而且前后端晶体管分配数量虽然合理,

只因魔改了低效老旧的SIMD和Vliw结构使用,酿成悲剧.
另外AMD应该是由于研发周期问题,
在中低端的HD6000系显卡中,架构选用稍作调整的Terascale2(Vliw5),比如HD6870的Barts核心

(或者像HD6770直接马甲HD5770),
再下一代HD7000系列又直接升级为GCN架构,
因此Cayman核心,的HD6900系,就成了前无古人后无来者,
名副其实,唯一Terascale3(Vliw4)架构的独显核心,
(之所以怎么说,是因为Richland等架构的APU集显也是TS3架构的)
真可谓是”天弃之子”,抛弃的”qi”,这在A卡的历史上是极其罕见的.
但这个核心也有很多A卡的传统异能,其中之一就是:开核!
(稍微提一下fire pro V5900这个奇葩卡,也是Cayman核心,但规模愣是从1536SP砍到只有512SP,简直是屠龙刀,不过这个情况在老黄那边也有,无非都是处理边角料了)
价格对抗:”核”战
与AMD这个穷小子不同,NV是腰缠万贯的黄老板,手一挥就是大核心,
凭顶尖性能主导话语权,来定高价赚钱,

不过回报越高,风险越高,若功耗翻车,就惨了
上一代GTX470就是个例子, 初代费米架构40nm没打磨成熟,
导致其GF100-275核心频率上不去,功耗也高达216W, 首发349 USD
反观隔壁HD5870,性能更佳,功耗却只有188W,不过价格自然高了点, 首发399 USD

而第二代费米优化了制程(还有BIOS限制功耗),第二代次旗舰GTX570与前代旗舰480规格几乎一样,TDP却仅219W,(多半有续保仅供参考)
再反观隔壁AMD功耗却上升了
最终导致这一代HD6970性能和定价对比GTX570都是劣势,功耗还半斤八两

*(所以NV的新旗舰GTX580只能留给 上代双芯卡HD5970去撼动了.)
另外,此时A卡仍只在DX9与DX10的游戏中有点优势,
所以A卡旗舰缺了点竞争力怎么办呢?
答案是:走老路子!仍然靠开核吃点软饭,
以前HD4830能开成4850,这次我们再来一个小馈赠!
开核有一个条件,那就是被开的芯片的PCB需与目标开成型号的PCB基本相同,以保证电气结构一样,运行完好, 上代隔壁NV拉跨,ATI没考虑这点,5850和5870PCB差距较大,
而这代HD6900系 旗舰和次旗舰PCB规格就完全一样,
除了供电端口一个是8+6pin,一个是6+6pin

而且AMD从这代开始还贴心的提供了双bios开关,防止刷坏.

“花低点的价格, 仅花$299 ,买个HD6950,再开核,获得GTX570的性能,节约$50”
正所谓是消费者总想贪点小便宜,是AMD总想耍点小聪明,
借用消费者的碰运气心理提升销量,两全其美了属于是*(还可以烧录bios进行开核)
然而老黄不是吃素的,他一直有Bear而来:你想靠 开核 整点小活,那我就给你来点大家伙!

几个月之后GTX560ti的推出,打破了AMD的美梦.使用了完整的GF114核心, 性能和6950几乎一样, 功耗更低,约170瓦(仍仅供参考),价格更低,只需249 USD起,

面对50美元的差价, 再加上DX11游戏对NV优化更好, 以及2GB显存真的不是刚需,
很快嗷,当时AMD就流眼泪了,(马老师口音)“刀法这一块,还是老黄做的快!”

不过,与此同时,世界上还有另外亿点点小事 需要显卡,且更有利于A卡销量增加,但它并不能使普通用户开心起来,
因为那件事,是第一次比特币矿潮.
万恶之源:中本聪
当年挖矿对显卡的市场冲击不亚于现在,
HD5970首发价五千元左右,当年能被矿老板炒到八千元,
但今天最低只要300多元就可以拿下了,想必3090过十年也是这样的命运吧.
与这两年的虚拟货币矿潮不同,当年的比特币矿潮还很单纯, 什么“比特金,莱特银,无限铜,便士铝”,毕竟这个概念以及矿机,矿池等等都还刚刚问世.更别提,硬盘,笔记本,三缓挖矿,以及乱七八糟的小币种了.
不过有一点任何矿潮时期都是相同的,那就是唯算力论!
(以下资料来源https://www.chiphell.com/thread-754064-1-1.html)
据查询,在13年, GTX570则只有124.2Mh/s,

定价接近的HD6970的比特币算力达到了376.2Mh/s,
甚至连初代GTX Titan都只有三百Mh/s,

有人会疑惑,现如今一张RTX3090的以太坊算力也就120Mh/s,怎么这些老卡比它还好?
那是因为算法等方面不同导致的,摘抄一段超能网的原话:
“实际上目前(13年)比特币的计算是基于SHA-256算法的,这个算法会有大量的位操作“Right-Rotate”,对于这个操作AMD显卡原生只需要1个硬件指令,而NVIDIA卡则需要用3个硬件指令来模拟,因此即使运算单元数量接近,AMD显卡的挖矿效率仍然比NVIDIA显卡要高。”
可以看出,A卡的”单指令多数据流(SIMD)”的架构在当时挖矿确实高效,
在当年矿潮可谓是大受欢迎.
Chubbyemu的这期视频就是铁证如山, https://www.bilibili.com/video/BV1w54y1V78y

你可以直接发现,视频开头展示的矿卡就是数张HIS希仕的HD6970.

通常AMD生产的旗舰卡要比NV少,
并且像这种功耗很高的旗舰卡, 其损坏率也就比低发热的甜品卡要高,(焊盘大,焊点多,也更易出现脱焊等问题)
再加上13年末的矿难,货源少,损坏多,最终导致的结果就是物以稀为贵,
现在闲鱼上其价格比GTX570还要高,再加上DX11兼容优化问题,因此很不推荐各位捡HD6970作为过渡卡.(就算显存大点也不算什么优势)

关于损坏率这一点呢,我问过两位收藏显卡的大佬,他们都有因放置过久而暴毙的HD6900系A卡,也不知道和矿有无关系
那我呢? 我收三张里边,不能说全都是好的,至少可以说全都翻车的,他们的生前测试可以看往期视频:
总结:
AMD收购ATi后财政紧张,诞生了HD6970,这样拖泥带水的旗舰架构.

也使得自己恶性循环,GCN重新陷入了挤牙膏的深渊.

然而! 显卡部门保守的背后,是苏妈转移了工作重心到CPU部门,
且自12年始就暗中研发zen架构, 最终使得锐龙横空出世,cpu的堆核战争打响

所以,Terascale3的失败,最终苦的不是AMD, 反而是,蓝!色!牙!膏!厂!呐!


