欢迎光临散文网 会员登陆 & 注册

【知乎】史上什么CPU堪称发热量巨大?

2023-07-21 18:44 作者:失传技术电磁所  | 我要投稿


史上什么CPU堪称发热量巨大?

关注者

433

被浏览

1,533,563

关注问题写回答

邀请回答

好问题 34

1 条评论

分享

103 个回答

默认排序


cotton


笔记本电脑话题下的优秀答主

 关注

804 人赞同了该回答

(修改了部分表达贬义的词汇。)

(本文暂时仅涉及PC处理器,不包括手机处理器。)


现代的英特尔Skylake-W和Skylake-EP、AMD线程撕裂者和EPYC,这些动辄十几核甚至几十核的怪物就不讲了,它们虽然发热巨大,但是性能也非常强。

讲两个发热大性能又相对差的。

英特尔 奔腾D(2005年)

2005年,AMD率先推出了速龙64 X2系列的双核处理器,也是在民用市场普及的第一款x86双核CPU。当时的英特尔正被奔腾4的高频低能所困扰,而奔腾D也是英特尔为了应对AMD的双核速龙,应急推出的一款产品。

奔腾D采用的仍然是奔腾4的Netburst架构,把两个单核奔4的硅晶核心封装在一个基板上,一度被AMD和硬件发烧友笑称为“假双核”、“胶水双核”。最早的一批奔腾D 800系列基于90nm制程,后来的奔腾D 900系列基于65nm制程,均采用LGA775接口。

问题来了,Netburst本就是一个能效比低的架构,同频下性能相对较差,只能靠强行拉高频率(3GHz以上)来解决性能较弱的问题,这也让高频奔4的发热量普遍很高,单核满载能达到70W以上。

奔腾D相当于把两个大火炉集中在了一起,其发热量有多恐怖,就可想而知了。

此外,奔腾D的两个核心没有共享缓存,核心间也没有任何独立的总线互联,因此它们之间的数据交换全部需要通过北桥中的内存控制器由内存交换数据,交换效率受FSB的带宽和延迟影响较大,导致奔腾D的性能表现也不理想。

种种缺陷注定了奔腾D失败的命运,虽然后期900系列的奔腾D更新制程后发热表现好了一些,但仍然不能扭转奔腾D急转直下的口碑和不尽人意的性能表现。在能效比大幅提升的酷睿2发布后,奔腾D便退居为入门级双核处理器产品,直到2007年停产。

AMD FX系列 8核处理器(推土机和打桩机,2011-2013年)

来到2012年,此时的Intel酷睿处理器已经成为新的王者,而AMD这时候却走上了一条不归路——CMT技术

推土机架构把两个核心及相关单元封装成一个模块,每一个核心都有完整的整数运算单元;但两个核心共用一个浮点运算单元,因此推土机的8核处理器实际上只有4个模块和4个浮点运算单元。AMD认为,未来CPU主要承担的运算是以整数运算为主,浮点运算更多可以交给GPU来完成(因为同价位显卡的浮点运算能力比CPU高得多),且将来的程序会越来越多地向多线程优化。

然而事与愿违,大部分程序并没有按AMD想象的去做(0202年的很多游戏依然对单线程性能有较高要求、仍需要CPU执行大量的浮点运算)。此外,类似奔腾4的超长流水线设计、及减少了一半的浮点单元,让推土机也成了一个像奔4一样高频低能的架构,单核性能相比自家的上代K10架构有明显的倒退。


后面的故事就和奔腾D很像了,“性能不够、超频来凑”,因此AMD推出了一系列高频的8核处理器,如FX-8150、FX-8350。

把这一点做到极致的是FX-9590,基础频率4.7GHz、最大能动态加速到5.0GHz,官方标称TDP达到恐怖的220W,90%以上的风冷散热器根本压不住,以至于在后来AMD零售FX-9590的时候还搭配了高端水冷散热器捆绑销售。尽管如此,FX-9590的性能也就是一个默频i7-4770K的水平。

推土机架构的失败让AMD在CPU领域遭遇了前所未有的滑铁卢,成为玩家口中的笑柄,催生出了“i3默秒全”、“农企今天翻身了吗”这样的口号。一直到2017年Zen架构的发布,AMD在CPU领域才得以重新翻身。

虽然这俩CPU耗电高、性能弱,但它们并不是没有存在的价值,而且有价值的原因也是相同的——

便宜

在速龙64 X2开始风生水起的时候,AMD的定价很高,2005年和2006年的双核基本上都要2000块起步,而奔腾D 820的价格只要1000多块,后续推出的入门级PD 805甚至打到了千元以内。

同理,AMD的推土机系列价格也不算高,FX-8150也只要不到2000块就能入手,并且不锁倍频,和带K的二代、三代四核i5价格相仿。


编辑于 2020-03-30 16:10

赞同 804127 条评论

分享

收藏喜欢

收起


BORN


除了作死什么都不会,不过幸运的是每次我都作得一手好死

 关注

405 人赞同了该回答

要是把范围局限在通用CPU上的话(WSE那种专用处理器不算),那没什么CPU的功耗能和IBM大型机服务器比,巴掌大的CPU算什么?来看看和人头一样大的CPU。

IBM Z196,十年前的产品,45nm工艺制造,每个PU包含四个5.2GHz核心,4*1.5MB L2和24MB L3。

下面图片里的Z196 MCM,集成了20个PU(MCM里其实集成了24个,但是有4个是用来备份的,最多只有20个能工作),一共80个5.2GHz核心,120MB L2、480 MB L3和1920MB L4(每两个PU单元共享192MB),每套功耗1800W。没错,煮饭、炒菜、烧开水无所不能。

Z196最高配置(M80),可以放80个PU(4套MCM),每个book里可以放1套,都位于A Frame机柜里。




后来IBM Z13/14和15的处理器,外观类型都是类似的,都是这样的多芯片MCM结构。

2020.04.02更新

今天来回答几个大家都比较关心的问题,IBM大型机处理器的性能,和同年代x86处理器相比如何?

首先要明确的一点是,诸如Z196这样的处理器,名义上是通用处理器,但实际上它的业务特性是比较明显的,最典型的就是银行和证券公司的交易,每天进出多少金额、买卖多少股票,全部都是非常单纯的数学计算。

更关键的是,我们知道一般的计算机都是指2进制计算机,CPU内部运算时都使用2进制浮点数,但我们日常使用的数字却是10进制。而用2进制去表示10进制浮点数时,其结果只是近似的,而且是不连续的。这一点在金融系统高频次、大数据量的交易当中会导致一些问题,比如误差的累积。

这一点其实反映到了这类CPU的硬件设计上,我先看看下面的微架构图。

拿Z196来说,我们可以明显的看出,这是一个三发射、乱序执行的超标量处理器。

很多朋友可能会认为,三发射?这岂不和奔腾4一样落后?其实不然,因为相比x86,Z系列是更接近于传统CISC的设计,流水线的复杂性比x86要更复杂,所以不能直接比较。

就拿奔腾4来说,3个解码器其实是1+2的配置,也就是1个Complex Decoder和2个Simple Decoder,前者的输出是3个uops,后者是1个uop,也就是理论情况下每周期能输出5个uops。而和Z196同时代的Nehalem(INTEL第一代i系列),则是1+3配置,3个Simple Decoder的输出也是1个uop,而1个Complex Decoder的输出是4个uops,一共是7个uops,INTEL挤了那么多年的牙膏Skylake架构也只是1+4配置,一共8个uops。

回到Z196上,我们可以发现,这货根本没有Simple Decoder,3个都是Complex Decoder,这是之前我说它更接近于CISC的原因。每个解码器都能输出3个uops,一共是9个uops,也就是说理论上它的单周期解码能力其实要比nehalem更强。同时带来的是240字节的超大Instruction buffer,Nehalem上功能类似的Pre-decoder buffer只有16字节。

再来看后端SIMD部分,Z196有3组通用执行端口,对应2组Integer单元、1组Floathing单元,以及2组独立的Load/store单元(就是图中的AGU)。Nehalem同样是是3组通用执行端口,对应1组Integer单元、2组Floathing单元,以及3组Load/store单元。可以看出二者的侧重程度不同,Z系列是更侧重整数运算的,这点也能从80组整数浮点/微代码寄存器和4uops的宽度看出来。

然后我们可以注意到Z196最大的一个不同,在Port 4上还有1组Hex Binary FPU和1组Decimal FPU,这就是IBM的绝活了,这两组浮点单元可以直接在硬件层面进行16进制和10进制运算,直接从根本上解决了2进制到10/16进制转换的精度问题,同时也提高了效率

之后是缓存和内存部分,这一点其实没什么好比的,Z系列拥有更大的、更多级、更复杂的缓存体系,L1 I-Cache和D-Cache的容量是Nehalem的两倍(其实可以看出,Z196也是一个冯诺依曼/哈弗架构混合体),L2 Cache的宽度比Nehalem大50%,MCM上那恐怖的1920MB L4甚至都可以当内存使。

最后由于Z系列的封闭性(资料太少,大多是操作和使用类的),以及客户的特殊性(都是诸如中国人民银行和四大行之类的金融公司,谁敢在上面跑一把鲁大师?这不是被开除的问题,而是要进监狱的),我没有办法从更高的层面去对比Z196的实际性能,只能到此为止。但大体看来,个人认为Z196微架构比同时期的Nehalem更强。

Z196系列除了80个核心外,它还有一个zBX(zEnterprise BladeCenter Extension)配置,其实就是提供额外的POWER服务器来配合处理数据。最高的112 zBX可以扩展112台双路8核心POWER7刀片服务器,装在4个机柜里,一共是224个处理器1792个核心。



PS:当年IBM基于Z196为12306提交了一套方案,但是最终败给了价格,这个玩意只有金融行业用得起。


编辑于 2020-04-03 23:18

赞同 40551 条评论

分享

收藏喜欢

收起


孑然


BIOS, FPGA, IC

 关注

549 人赞同了该回答

讲一个严格说不算CPU的芯片吧,功耗15KW,整片300mm晶圆制成。


这玩意叫Cerebras Wafer Scale Engine,台积电16nm工艺制造,面积422.25平方厘米,拥有恐怖的1.2万亿个晶体管,40万个核心,18GB片上SRAM,100Pb/s片上带宽。功率大约15KW,含有单个该芯片的整套系统功耗20KW。怎么样,比家用电磁炉厉害多了吧!

补充:

散热系统是这样的

封装好是这样的



编辑于 2020-03-30 19:51

赞同 549106 条评论

分享

收藏喜欢

收起

匿名用户

289 人赞同了该回答

PowerMac G5 是苹果历史上唯一一个使用水冷散热系统的Mac产品,高配型号使用两颗PowerPC 970MP双核处理器,峰值功率达到4X100W。

但是该型号水冷系统频繁出现漏液问题。

能让苹果唯一一次用上水冷的cpu,可以当电暖气用了。




发布于 2020-03-25 14:05

赞同 2898 条评论

分享

收藏喜欢


攒蘑菇的小提莫


消费电子一知半解,阴阳怪气一个顶俩

 关注

1,409 人赞同了该回答

如图——

移动端火龙当属高通810。

高通骁龙810(MSM8994,2015)为了对苹果率先推出移动端64位CPU做出回应,高通不得不提前拿出骁龙810,但事实证明芯片这东西赶工必暴死——自动布线和20nm制程让本来就发高烧的A57架构更加雪上加霜。

单核功耗超过5W,四大核功耗由于散热问题至今无人得知,这样的发热量直接让一众厂商在2015全年都没有办法推出像样的旗舰机,间接导致了三星猎户座和海思麒麟的强势崛起,还顺手把索尼、HTC和LG搞了个半死。

顺带一提,在冬天的哈尔滨,早年间的苹果基本通通暴毙,但火龙810不仅可以满血运行,而且自身发热还能维护电池放电。。。

原文地址:

攒蘑菇的小提莫:盘点对公司进程造成巨大影响的七颗移动大火龙133 赞同 · 44 评论文章

—————2020.4.07更新—————

评论区说X86的HXD提醒了我

280÷64=4.375,不解锁功耗满载时单核才4.4W不到,每个线程不到2.2W……

大家都是龙系处理器,凭什么你就得喷火呢

地狱炎龙你太丢人了,褪裙吧




编辑于 2020-04-07 08:53


【知乎】史上什么CPU堪称发热量巨大?的评论 (共 条)

分享到微博请遵守国家法律