欢迎光临散文网 会员登陆 & 注册

【转芯片论文】AMD Zen架构

2023-11-30 00:54 作者:小林家的垃圾王R  | 我要投稿



【芯片论文】AMD Zen架构



eyesighting


科学技术是第一生产力

1. AMD Zen1

AMD 的下一代高性能 x86 核心代号为“Zen”,面向服务器、桌面和移动客户端应用程序。采用 Global Foundries 的节能 14nm LPP FinFET 工艺44mm² Zen 核心复合单元 (CCX) 具有 1.4B 晶体管,并包含共享的 8MB L3 缓存和四个核心(图 3.2.7)。7mm² Zen 内核包含专用的 0.5MB L2 缓存、32KB L1 数据缓存和 64KB L1 指令缓存。每个内核都有一个数字低压差 (LDO) 稳压器和数字频率合成器 (DFS),可在不同电源状态下独立改变频率和电压。

可扩展的单 Zen 核心结合了低功耗和高性能,取代了 AMD 当前的双核产品组合。从头开始构建的 Zen 架构将每个时钟周期的指令提高了 40%,而无需增加 Excavator (XV) 的性能,并引入了同步多线程允许每个 CCX 有 8 个活动线程。与 XV 相比,Zen 将问题宽度和执行资源增加了 150%,指令调度程序窗口增加了 175%。168 个条目的整数寄存器文件有 12 个读取端口和 6 个写入端口。整数单元可以执行四个ALU操作和两个AGU操作,而128b FPU可以执行两个MUL操作和两个ADD操作L2 缓存支持每个方向 32B/周期的整体带宽,与上一代相比,L2 延迟有所降低。L3 在所有内核断电的情况下运行并自行刷新,这在多 CCX SoC 配置中被证明是无价的。L3 缓存带宽为单核每个方向 32B/周期,四核每个方向 128B/周期。L3 在功率优化结构中包含一个重复的 L2 标签,以过滤到核心的事务。单线程功率范围从 <1W 到 8W,因为 Zen 将交流电容 (Cac) 比 XV 降低了 >15%,平均工作负载类似于 SpecInt06 基准。该团队强调电源效率,跨各种工作负载和流程点仔细优化 Cac。Zen 添加了一个存储解码指令的操作缓存,这增加了操作/周期并通过减少有效管道长度来节省功耗。

2. AMD Zen2

AMD 下一代高效核心代号为“Zen 2”,采用 x86-64 设计,采用节能的台积电 7nm FinFET 工艺制造。与 AMD 的上一代核心(代号为“Zen”[1])类似,该版本中具有 4 个核心的核心复合单元(CCX)(图 2.1.1)广泛用于客户端、半定制、嵌入式和 服务器细分市场。475M 晶体管核心片尺寸为 7.83mm2具有 0.5MB 二级缓存和 4MB 共享三级缓存。该设计采用新的定制电路和存储器设计技术来实现指定的性能和功耗。

Zen 2 设计比 Zen(图 2.1.2)有许多设计改进,包括平均单线程应用程序的每周期指令 (IPC) 提高 15%,同时降低技术中立的每周期开关电容( CAC)9%。前端采用新的分支预测方法,分支目标容量增加近一倍整数物理寄存器文件将其条目从 168 个增加到 180 个地址生成单元可以调度 3 个存储 AGEN,而 Zen 上只能调度 2 个整数调度器从 84 个条目增加到 92 个条目,并且退出重新排序缓冲区从 192 个条目增加到 224 个条目。这些架构增强在各种工作负载上产生了有意义的 IPC 改进,而不会导致动态功耗成比例增加,从而带来更好的性能功耗比。

3. AMD Zen3

“Zen 3”是 AMD Zen 系列微处理器中首次重大微架构重新设计。鉴于与上一代“Zen 2”核心[1]相同的7纳米工艺技术以及相同的平台基础设施,“Zen 3”的主要设计目标是提供:1) 每周期指令 (IPC) 显着提升,2) 频率显着提升,3) 电源效率持续提高核心复合体单元(CCX)由 8 个“Zen 3”核心组成每个核心具有 0.5MB 私有 L2 缓存和 32MB 共享 L3 缓存。除了 IPC 和频率改进之外,在上一代中增加 4 核和 16MB L3 还可以提供额外的性能提升。图 2.7.1 所示的“Zen 3”CCX 包含 68mm2 的 4.08B 晶体管,广泛应用于客户端、服务器和嵌入式细分市场。

高级框图如图2.7.2所示。前端有最多的更改,包括2倍大的L1 Branch-Target-Buffer (BTB),有1024个条目。通过消除预测分支上的管道气泡,提高分支预测器带宽,更快地从错误预测的分支中恢复,以及更快的运算缓存提取排序。在执行核中,整数单元问题宽度从7个增加到10个,包括专用分支和存储管道。重排序缓冲区增加了32个条目,达到256个,而在浮点单元中,问题宽度从4个增加到6个,FMAC延迟从5个减少到4个周期。在负载-存储单元中,最大负载带宽和存储带宽分别增加了1到3和2,并且通过增加4个表漫步器增强了翻译暂存缓冲区(TLB),使其总数达到6个。总体而言,在25个单线程行业基准测试和游戏应用程序中,“Zen 3”内核比“Zen 2”提供了+19%的平均IPC提升,一些游戏的表现超过了+30%[2]。

4. AMD Zen4

“Zen 4”是 AMD 的下一代 x86-64 微处理器核心,采用 5nm FinFET 工艺制造。设计团队和台积电之间的密切合作实现了相对于“Zen 3”使用的 7nm 工艺的优化工艺和出色的工艺扩展[1]。如图 2.1.1 所示,55mm2 核心复合体 (CCX) 在 8 个核心上包含 6.5B 晶体管,与上一代的 8 核心 CCX 类似。每个核心包含 1MB 私有二级缓存,是上一代的两倍,八个核心共享 32MB 三级缓存。与“Zen 3”相比,该设计还提供了过程中立的性能提升:每周期指令数 (IPC) 增加,物理设计提高了与进程无关的频率,并进行了一些更改以提高电源效率,从而最大限度地提高多线程工作负载中的单线程性能和每瓦性能。对核心微架构的增量改进使得平均单线程桌面应用程序的 IPC 比上一代提高了 13%“Zen 4”核心的运行频率高达 5.7GHz,单线程性能比一代提升了 29% 以上

图2.1.2显示了Zen 4架构的框图。最多可以分派六个整数操作,最多支持三个负载和两个存储,并且分支预测精度比“Zen 3”有所提高。该设计还增加了整个核心的缓冲区大小。结构大小的增加包括更大的指令操作缓存、退役队列和整数寄存器文件浮点寄存器文件大小也增加了,并且使用256b数据路径增加了对512b高级矢量扩展(AVX 512)浮点指令的节能支持。通过添加部分写入一级数据缓存项的能力,可以减少一级数据缓存银行冲突。对dcache存储阵列中使用的标准单元进行布局优化,将与添加部分写入功能相关的面积成本降低了20%以上。

参考文献

Zen:下一代高性能×86核心:https://ieeexplore.ieee.org/document/7870256

Zen 2:AMD 7nm节能高性能x86-64微处理器核心:https://ieeexplore.ieee.org/document/9063113

Zen 3:AMD 第二代 7nm x86-64 微处理器核心:https://ieeexplore.ieee.org/document/9731678

Zen 4:AMD 5nm 5.7GHz x86-64 微处理器核心:https://ieeexplore.ieee.org/document/10067540


编辑于 2023-09-25 23:57

赞同 67



【转芯片论文】AMD Zen架构的评论 (共 条)

分享到微博请遵守国家法律