欢迎光临散文网 会员登陆 & 注册

【转】后摩尔时代的“芯”路,中国的燎“原”之火

2023-04-29 05:15 作者:失传技术  | 我要投稿

 

后摩尔时代的“芯”路,中国的燎“原”之火




猛练自然强


一个不会写软文的段子手不是好投资经理!


2021年12月,在中美关系最严峻一年的年末,芯片巨头英特尔的一封信炸了锅,激起中国人的巨大愤慨。英特尔在信中表示“需要确保我们的供应链不使用任何来自新疆地区的劳工、采购产品或服务”。一石激起千层浪,各方面纷纷指责英特尔是在危险边缘试探,是自寻死路的疯狂行为。


针对美国等西方国家污蔑新疆存在“强迫劳动”,中国早已表达严正立场:这是一个世纪谎言。个别西方政客特别是美国政客,鼓噪所谓的“强迫劳动”,实质是打着人权的幌子搞政治操弄,干涉中国内政,遏制打压中国特别是新疆的发展。明眼人都知道这是赤裸裸的诬陷,但英特尔高管依然听信了美国政客的说辞。早在今年7月,就有美国政客拿新疆问题逼Airbnb、可口可乐、英特尔、宝洁以及Visa等5家美国企业表态,其他公司都含糊其辞,但只有英特尔高管明确表达声称相信美政府结论:“我研究过它,所以我相信这份报告的结论。”

这显然是对中国的最大冒犯。

得罪中国显然没有好果子吃,广大网友纷纷表示不再购买英特尔的产品和服务。英特尔广告则被满屏的“AMD,Yes!”的嘲讽弹幕刷屏。

虽然AMD也是美国公司,但是由于AMD的CEO苏妈这位华裔传奇人物的原因,广大中国网友对AMD有更多的好感。

虽然英特尔口碑跌倒谷底,但是从现实来看,目前在CPU领域英特尔处于领先地位,但是AMD也紧追不舍。根据市场调研机构Mercury Research的数据显示,2021年第三季度,AMD在X86 CPU市场上的整体份额环比增加了2.1个百分点,达到24.6%,这是AMD历史上第二高的纪录,15年前该公司曾创下最高纪录25.3%,虽然AMD现阶段依然小弟,但是正在快速蚕食英特尔的份额。

虽然两家公司竞争激烈,不过AMD也是美国公司,在CPU领域国内虽然也有海光、兆芯、华为鲲鹏、天津飞腾等公司,但是相比之下依然有着巨大的差距,这个领域美国依然强大。

回顾这两家公司的斗争历史,是否有值得借鉴的历史意义?中国在这个领域要如何追赶美国?

16年前,曾经AMD最辉煌的年代是如何把英特尔逼到手忙脚乱?这次历史能否重演?在后摩尔时代,中国半导体要如何和欧美强国抗衡,远方的“芯”路上,谁能逐鹿中“原”?是否有一家公司能够让众多小伙伴能够站在其肩膀上眺望远方,与欧美巨头一争高下?

在后摩尔时代的远方的“芯”路,中国如何让希望之火燎“原”?

全文34000字。


英特尔和AMD的江湖恩怨(一)——初期的甜蜜

如果英特尔是这个星球上最可怕的商业对手,宛如一条巨龙,而AMD则是挑战巨龙的无畏骑士!

翻开半导体历史,有这么一家半导体公司绝对是最具传奇色彩,那就是仙童(Fairchild)。

1956年,威廉肖克利和巴丁,布拉顿三人因为发明晶体管,荣获诺贝尔物理学奖。而写下《半导体空穴与电子》巨著的肖克利博士也被誉为“晶体管之父”。于是肖克利博士创办的肖克利半导体一时风头无二,引来众多青年才俊前来工作学习。虽然肖克利博士是技术大牛,但是缺乏管理才能,而且脾气不好,为人刻薄,不仅气跑了巴丁和布拉顿两位大佬,更是引来徒子徒孙们的不满。后来有八个人一起辞职,拿了一个做摄影器材公司的一笔风投资金,创立了一家半导体历史上最传奇的公司——仙童,肖克利博士得知后气的大骂“你们这些叛徒”,这就是有名的“仙童八叛逆”故事。

仙童在成立后突飞猛进,成为炙手可热的公司,但是后面由于和股东经营理念上的差别,导致日后仙童也出走诸多精英,这些人日后创立了一家又一家的半导体公司,四处开枝散叶,给行业输送了大量的人才,因此仙童被称为世界半导体领域的“黄埔军校”。如今不少公司都成长为行业巨无霸,成为芯片领域举足轻重的公司,比如英特尔和AMD,英特尔的创始人诺伊斯和戈登摩尔,以及AMD创始人拉里桑德斯曾经都在仙童工作过,也算是老同事了。

虽然创始人都在同一个老东家工作过,但是双方恩怨颇深。

AMD和英特尔在初期都曾有过甜蜜期,双方携手打天下,但是在上世纪90年代,英特尔收回X86 CPU的授权后,双方迅速交恶,前前后后斗了二十多年。面对英特尔的咄咄逼人,AMD从未退缩,哪怕AMD比英特尔渺小的多,在与英特尔长达8年的专利诉讼中,AMD从未屈服。AMD创始人兼CEO顶着标志歪鼻子的桑德斯,不止一次的站在法庭上怒斥英特尔的种种不公,把不服和倔强写在脸上,最终迫使英特尔达成和解,因此AMD也被人称为最励志最顽强的半导体公司。

最初英特尔是做内存起家的,并不是做CPU,而AMD的初期策略则是跟随和模仿,作为第二供应商,只要客户有需求,有什么做什么。

在CPU的道路上,当初最强的就是“蓝色巨人”IBM,IBM发明CPU后,将其CPU专利授权给英特尔,让它帮助自己一起扩大商业版大,于是英特尔利用IBM的技术授权推出了第一块16位CPU 8086,这款CPU让英特尔一战成名,在IBM后续的个人电脑中,也是用了英特尔的处理器,让英特尔确立在PC市场的霸主地位。

为了防止英特尔一家独大,IBM后面又扶持了另外一家公司,就是现在的AMD。一开始是英特尔和AMD是合作关系的。当时英特尔的8086处理器的产能不足,为了保证生产,在1982年的时候与AMD合作生产8086。

上世纪80年代,微软赢得IBM PC的大订单,在其整个发展史上都是至关重要的,PC走入千家万户迅速发展。不过,IBM深知,如果CPU订单给一家供应商,势必造成尾大不掉。为此,IBM要求第一供应商将自家技术授权给第二供应商AMD,必须形成“我开放,你也开放”的局面。当时可供选择的微处理器厂商至少有摩托罗拉、国民半导体、仙童半导体、英特尔、AMD等。但为拿下IBM的订单,英特尔和AMD迅速走向联合——英特尔授权AMD生产X86系列处理器,AMD放弃自家竞争产品,作为第二供应商联合向IBM供货。

此次多方合作一举奠定微软在操作系统上的地位,也奠定了英特尔和AMD在X86芯片上的地位,尤其奠定了“Wintel”模式在PC时代的独霸天下。

在于IBM的合作中,让英特尔逐渐看到PC行业的巨大潜力,于是把CPU作为核心业务。这种战略转变让英特尔开始谋求独家供应,并与AMD生了嫌隙——1987年AMD被英特尔提前结束80386系列芯片技术授权。

AMD将英特尔告上法庭,但官司延宕了5年。到1992年时,AMD被判获胜,获得赔偿并获得386的任何知识产权,包括X86指令集。尽管AMD赢得官司,但判决的执行又被英特尔拖延到两年多以后的1995年。

前后七八年时间,英特尔在1985年推出386、在1989年推出486系列芯片、在1993年推出586,即奔腾1代,席卷整个PC市场,1993年还发起Intel inside的强化品牌运动,让“灯,等灯等灯”的魔性声音深入人心。

在长达七八年的诉讼中,AMD差点错过了PC发展的黄金期,所幸AMD赢得了X86指令集的永久知识产权,于是1990年代初开始大力自主研发,尽管在1991年成功仿制386并将之命名为AM386,随后又成功仿制了486,但由于产品技术和性能的代际落差,AMD逐渐落后。


英特尔和AMD的江湖恩怨(二)—— AMD的逆袭

在CPU发展过程中,英特尔推出“唯主频论”,意思是谁家CPU主频高,谁的CPU性能就强,这招近乎洗脑的营销手段简单粗暴但是很有效,对于并不专业的消费者而言,无脑选频率高的就行。AMD与英特尔的较量中,1GHz的大关便成了双方必争的阵地,于是双方都铆足劲更早推出主频超过1GHz的产品。最终AMD在1999年推出K7构架的雷鸟,先于英特尔的奔腾3让自家CPU主频迈过1GHz大关,尽管这款CPU还需要额外转接卡,实际上并卖出多少,但是确实让AMD在市场关注度方面一炮走红。紧接着K7构架的毒龙,速龙等品牌深入人心,但是英特尔迅速反击,除了比较糟糕的奔腾3 1.13G之外,后续同档次的CPU主频均超过AMD。

因为AMD当时的制造水平不如英特尔,所以在虽然在“主频争夺战”上AMD落了下风,但是AMD构架上的也具有一定优势,所以尽管AMD CPU主频不如英特尔但是综合性能并不弱,但是消费者并了解。于是为了更好地宣传,AMD干脆放弃采用主频给产品命名的方法,全部采用PR标称法,比如速龙3000+,实际频率其实只有2.4GHz,但是看起来似乎和英特奔腾4 3.0差不多。AMD K7系列芯片的大卖让2000年的销售额达到46亿美元,K7构架经典款的“巴顿2500+”以700元出头的售价与高出自己一倍价格的奔4 2.4G性能相当,这是AMD历史上最辉煌的一战。

2004年,AMD K8构架横空出世,这是一款划时代的经典作品。随后的首款64位速龙系列,让AMD乘胜追击,当时AMD在台式机市场占有50%以上的份额,这是AMD历史上首次在市场份额上超越英特尔。

AMD K8构架有多达16个版本,从最早130nm制程的Sledgehammer 核心到最后一版65nm的Sparta核心,接口包括Socket 745/939/940/AM2等,特别是940和AM2接口,很多旧主板几乎都可以通过刷BIOS升级的方式兼容新CPU,对比英特尔出一款新CPU就要换一套主板相比,可谓天地良心。

期间涌现出Athlon 64 3000+、Athlon FX-57 、Athlon X2 3600+/3800+、Athlon 64 X2 5000+等多款经典产品,极具性价比的策略一度将英特尔奔腾系列按在地上摩擦。

为什么在当时英特尔CPU主频远远高于AMD,但是实际应用上性能却相差无几,因为AMD的K8构架中将主板北桥中的内存控制器整合到CPU内,极大提高CPU与外界数据吞吐能力,堪称天马行空般的创造力。

熟悉电脑的朋友都知道,老式主板是分南北桥的,其中南桥芯片负责外部设备I/O接口(输入输出),比如硬盘,USB,声卡,PCI槽等部件等;北桥芯片则负责CPU与内存以及显卡之间的通信,其中FSB(Front Side Bus)前端总线程负责最关键的CPU和内存之间的通信,即数据沿CPU——北桥芯片(FSB)——内存的路径来回传输。

在早期,CPU的外频和FSB的频率保持同步。即外频频率=FSB频率,举例赛扬300A的外频为66MHz,那么它的FSB频率也是66MHz。而到了奔腾4时代,FSB总线速度已经无法满足CPU的带宽需求,于是英特尔引入了Quad Pumped Bus技术,让FSB在一个周期内可以传输四倍的数据。于是FSB的带宽公式变成:FSB频率=外频频率*4,比如333MHz的外频的CPU,其FSB等效频率为333*4=1333MHz。

同时内存技术经过一系列演变,从SDRAM内存到DDR1代内存,虽然时钟频率变化不大,但是由于DDR1内存在一个时钟频率内的上行和下行可以各传输一次数据,因此等效速度翻倍;到DDR2时代,变成传输2次,速度再次提高一倍,因此 DDR2 800核心频率是200MHz,等效工作频率800MHz,对应带宽6.4G/sec,标称PC 6400。

随着数据处理量越来越大,CPU和内存之间数据交换激增,FSB则变成性能瓶颈,弊端显露无疑,为什么不能让CPU内部直接和内存连接呢?这样CPU的处理效率就能大幅提高。于是AMD在K8构架上首次提出新型总线结构,创新性的将内存控制器集中到CPU内部,让CPU和内存直连,大大提高了数据交换效率,这个技术就是AMD当年吊打英特尔的杀手锏——HyperTransport, 简称HT总线技术。

HT最早叫“闪电数据传输”Lighting Data Transport ,LDT。是一种高速、双向、低延时、点对点、串/并行两用的高速带宽连接技术。事实上英特尔早年也做过这样的方案,在最早奔腾4配套主板82810芯片上,独创了Hub Link技术来连接南北桥芯片,以发挥 Ultra DMA 66传输芯片的芯片组,但是也仅仅用在南北桥信号互联上,未进一步发挥。

AMD在当时已经看到,CPU,北桥,内存之间捉急的效率,急需新的总线技术来满足巨量的数据传输,迫切的需要实使用新技术来抗衡英特尔。1999年,HT总线联盟成立,AMD参与其中,后来这个阵营里有NV,ATI,IBM等大佬支持。HT总线技术对外开放,而改进则由联盟内的大佬进行。而HT总线具有恐怖的传输速率。最早的1.0版本推出时间是2001年,它的双向传输速率最大就达到了12.8GB/s,虽然AMD用的单路16位远远没有达到这个速度。而同时期的英特尔还在使用老态龙钟FSB总线,533MHz下只有4.3GB/s的传输带宽,高下立判。而HT总线有多个版本,HT3.1总线发布于2008年,最大带宽为51.2GB/s,这个数据即便放到今天也是很可怕的,现在显卡用的PCI-Express X16 接口双向带宽仅为32GB/s。而HT总线同样不仅仅用于CPU和内存之间通信,包括AMD的多路CPU之间也把HT做为内部总线,而思科更是把HT总线技术丢到了自家路由器和交换机上,大大提升了交换机的多路传输性能。

至于PCI-E发展这么多年还是一副老样子,甚至还不如十多年前的HT总线带宽来的大,这里牵涉到英特尔的核心利益,后文有详细讲解。

HT技术大获成功,并且在CPU从单核到多核路线上,HT显示出强悍的性能,依靠HT总线,CPU的内部多个处理单元能够及时高速传输海量的数据,HT技术让AMD突飞猛进,而英特尔则节节败退。

在CPU从单核走入多核心的过程中,面对AMD的穷追猛打,英特尔仓促应对拿出第一款双核产品——奔腾D 820,然而这掀起一场“真假双核”的争论。因为英特尔只是简单的把两个奔腾4 630的裸芯粒封装到了一个基板上,CPU之间进行数据通信竟然要经过北桥芯片来进行交换而不是内部直连。虽然这款CPU有高达2.5亿晶体管,主频也高达2.8GHz,(当时单核CPU只有1-1.2亿个晶体管)但是根本发挥不了1+1>2的作用,被网友戏称为“胶水双核”,而且发热量巨大,效果奇差无比,这一仗英特尔输的体无完肤。

AMD的HT总线就像一条新建设的双向八车道的高速公路,CPU与内存之间,CPU内部各个核心之间,都由HT总线串联起来,使得整个系统的效率有着极大提高,而英特尔的FSB则依然是一条堪比印度农村的破马路严重制约着CPU的性能,由此可见这条总线“芯路”有多重要!

有总线和没有总线,有好的总线和没有好总线,芯片的性能可谓天差地别!


英特尔和AMD的江湖恩怨(三)——精密的战争机器

被逼到绝境的英特尔终于发现自己之前给民众洗脑的CPU“唯主频论”开始反噬自己。之前因为“唯主频率”,只要主频高,CPU就是性能好的理念灌输下,为了提高CPU主频,英特尔不断给CPU增加流水线级数,这样主频就能更容易的提高,因此在奔腾4的Prescott核心中设计了史无前例的超长31级流水线。虽然CPU主频被不断提高到接近4GHz,但是其实应用中大家发现CPU效率并没有太多提高,反而因为极高的主频带来巨大的功耗和发热,被各种吐槽,典型的高耗低效,英特尔骑马难下。

因为巨大的发热量,Presscott 核心系列奔腾4被戏称“烤箱”。最终,时任英特尔CEO贝瑞特在6000多人面前惊天一跪,承认英特尔走错了路,并宣布放弃4.0G主频的产品,奔腾4 4.0G胎死腹中,NetBurst构架被彻底放弃,落得贻笑大方。

经历过奔腾系列的失败,英特尔痛定思痛,放弃了Netburst构架,放弃“唯主频论”切到“功效论”上。同时提出了“Tick-Tock”(钟摆策略),每一次“Tick”代表着一代微架构的处理器芯片制程的更新,而每一次“Tock”代表着在上一次“Tick”的芯片制程的基础上,更新微处理器架构提升性能。两者交替更新,一般一次“Tick-Tock”的周期为两年,“Tick”占一年,“Tock”占一年。


认真的英特尔像一台精密的战争机器,是地球上最可怕的商业对手。经过一些系列的动作,英特尔将劣势逐渐扳回。

在新构架方面启用了迅驰笔记本平台的奔腾M系列CPU的设计团队——即名噪一时的以色列海尔法团队。该团队此前在迅驰笔记本平台大获成功,奔腾M的CPU占领了90%的市场。于是英特尔决定把该构架移植到所有PC平台和移动平台。该团队重新设计一款CPU,核心代号Merom,Merom其实只是一款过渡产品,随后Core构架出现,第一款是桌面处理器核心代号“Conroe”,这就是大名鼎鼎的酷睿2!

在Core构架设计上,英特尔吸取Netburst的失败教训,在Coro构架上的每个环节都比过去的CPU更大更宽,它的向量和标量执行单元要比过去的Netburst构架大的多。更大的DL解码逻辑电路、更大的RBS重排序缓存、更大的RS预留缓存、更大的数据输出口,更多的晶体管、更多的缓存,英特尔把一系列强大的硬件条件集合在了Core一体,最重要的是两个核心共享一组L2缓存,不再像奔腾D 820一样还需要依靠FSB来交换数据,甚至还优于用HT总线做互联总线构架的AMD,CPU整体性能有了大幅提高。

但是英特尔依然还是采用原来的FSB总线,只是不断的把总线频率提高,从800MHz到1066MHz,再到1333MHz,尽管FSB总线不如HT总线来的高效,但是由于英特尔的在Core构架方面的做出巨大的改进而得以让CPU性能有了巨大的提升。在工艺方面,有着更深厚制造底水平蕴的英特尔就比AMD强的多了,因此拥有更先进HT总线的AMD也只是和英特尔打成平手。

在这个期间除了英特尔认真应对之外,AMD在战略上面出现了一定的偏颇。

2006年AMD做出了一个大胆的决定,斥巨资54亿美金收购ATi,轰动业界。这次收购案如果从实际效果来看,算自己给自己挖了一个大坑,但是不能否认AMD超前的思维。

当时收购前的竞争格局是:AMD与英特尔在CPU上竞争,ATi与英伟达在GPU上竞争。而英伟达和AMD是关系不错的合作伙伴,英特尔和ATi则是另外一对。

英伟达推出的nForce系列主板芯片与当时AMD的王牌产品Athlon的组合是很多DIY玩家津津乐道的搭配,比如经典的巴顿2500+配合nForce2 Ultra(洒家当年的配置),仅仅以1500元出头的价格,吊打2300多的P4 2.4C+i865的组合,极具性价比。后面Athlon 64 X2 3600+配nForce 4 SLi是当时的最强王炸组合,SLi双显卡交火平台带来超强的性能,特别是在游戏体验上,要想玩的爽,十个顶级发烧友会有十二个人告诉你,别问,问就是上SLi 双显卡平台!

ATi也和英特尔打的火热,ATi和英特尔进行交叉授权,英特尔的高端双显示卡平台就是用的ATi的交火平台(Cross Fire)。最终形成“AMD+英伟达”对抗“英特尔+ATi”。AMD和英伟达也算是互相成就。

但是不知怎么想的,突然之间AMD把ATi给娶了。这次交易好比是AMD当着自己的女朋友英伟达的面,抢了英特尔的女朋友ATi。此后AMD与英伟达反目成仇,关系一落千丈,而此前和英特尔合作愉快的ATi,也因为AMD合并而终止了合作,全部成为赤裸裸的竞争关系。唯一的好处是两家姓A的公司合并,“A卡”依然叫“A卡”,称呼未变。

虽然AMD在产品策略上也推出的APU产品(融合了CPU与GPU的功能于一体),也是以这次并购为基础,但是实际上市场上叫好不叫座,未取得理想中的预期。而且 AMD不得不在CPU和GPU两条线上分别与不同的强敌竞争,疲于奔命。这对于从研发资源和市场资源的层面都不占优的AMD来说无疑是捉襟见肘。

历史上双线作战基本都没什么好果子吃,两面竖敌十分致命。AMD低估了并购造成的竞争格局,而竞争格局的变化后的压力则是给AMD带来更大的困难。

此后的十年,成为AMD没落的十年,最惨的时候落得一个“i3默秒全”的称号,i3默认秒你全家!

这一仗英特尔大获全胜。

虽然英特尔从产品到市场策略上全面压倒了AMD,但是英特尔也没闲着,对自家的FSB总线早就不满意了,开始酝酿着新的总线了。

根据“木桶理论”,一个木桶能装多少水取决于最短的木板。英特尔清楚的意识到,FSB已经成为整个系统最大的短板,单纯的提高外频并不能彻底解决短板,急需一种新型总线来替代老旧的FSB,于是英特尔开发了一款新型总线——QPI 。

Qucik Path Interconnect,简称QPI,意为快速通道互联,在2008年的新一代Nehalem处理器上提出,英特尔表示QPI总线技术会取代陪伴多年的FSB总线,成为新一代CPU与CPU之间,CPU与芯片组之间,CPU与内存之间的连接总线,一经发布便引起极大关注。

其实QPI总线在此前已经用于安腾以及至强的服务器平台上,用于取代老旧的FSB,随后加入桌面级Nehalem处理器中。和HT总线一样,QPI总线一样是点对点通信,用于CPU,北桥,内存,南桥之间的点对点连接。而它的速度也远远超越了FSB总线。以末代的1600MHz的FSB为例,它的传输速度为12.8GB/s,而初版的QPI总线就达到了25.6GB/s,相比上一代直接翻了一倍。

随着英特尔新处理器的上线,更好的构架,更强的总线,以及领先对手的先进制程,多管齐下后的英特尔夺回失地,而AMD因为频繁更换CEO,收购ATi面临双线作战的巨大压力,K10构架设计能力虽堪称天马行空,CPU和APU融合看起来很美好,但是实际效果不达预期,以及拆分后格罗方德羸弱的制造水平拖累AMD等多方面原因,此后的十年变成AMD没落的十年,最惨的时候AMD的股价只有1.6美金,市值从高峰跌去95%,仅剩英特尔的零头。

而赢的关键战役的英特尔,开始选择躺赢,反正AMD已经给不了太多威胁,在没有太多竞争压力情况下,英特尔每一代产品仅比上一代做了微小的改进,提升速度就和挤牙膏似的,但是售价则提高不少,于是落得一个“牙膏厂”的外号。

英特尔又回到独霸天下的状态,风雨飘摇的AMD怎么办?


英特尔和AMD的江湖恩怨(四)—— 凤凰涅槃的AMD

硅谷最有权势的女人

在AMD50多年发展史上,迄今为止共经历了5任CEO,其中,创始CEO桑德斯任职时间最长,到2002年AMD进入高速发展时期卸任。其身后,鲁毅智任职6年到2008年,经历由盛转衰,2008年7月离任时已经连续7个季度亏损。德克.梅耶尔2008年下半年临危受命,但在两年多以后未能止住AMD的颓势,黯然离职,并导致AMD CEO在2011年上半年空缺长达半年之久。直到2011年8月,罗瑞德成为AMD新任CEO,但罗瑞德重复了前任的故事,最终在2014年底苏姿丰上任成为CEO,带领AMD逆境翻盘!

苏丰姿,Lisa Su,在全世界都是响当当的人物!她是宅男心中的女王,是全球理工学子仰望的学霸,是《巴伦周刊》评出的全球最佳CEO,也是《财富》杂志上的“2020年全球最有权势的女人”。她还是被视作半导体领域的诺贝尔奖——罗伯特·诺伊斯奖历史上的首位女性获奖者,也是第二位华人。

但所有这一切,都比不上那一句“苏妈”,代表着粉丝们对Lisa Su 的尊重、热爱、赞美、以及认可!

在AMD最危难的时刻,她放弃在大公司待遇优厚的高管职位,选择接手处在破产边缘的濒危公司,并凭借自身卓越的才能,将AMD从死亡边缘奇迹般地拽了回来。

她带领团队开发出了很多优秀的芯片产品,打破了行业巨头英特尔长期的垄断行为,改变了行业格局,让AMD重回巅峰,也让消费者用上了更便宜性能更高的芯片,一脚踩爆了牙膏厂,让“i3 默秒全”耻辱性口号扫进历史垃圾堆。

1969年,苏妈出生于中国台湾台南市,年幼随家迁至美国。年轻的苏妈是妥妥的学霸,考入纽约市三所明星高中之一的布朗克斯科技高中,高中毕业后考上常春藤名校——麻省理工学院(MIT),选择了最难的专业——电气工程,1990年MIT本科毕业后,苏妈仅仅用了4年时间一口气读完了硕士和博士的全部课程,于是年仅24岁时的苏妈就的获得MIT的电机博士学位顺利毕业!

1994年,苏妈顶著MIT电机博士的光环到德仪工作,在德州仪器工作了很短一段时间后,苏妈加入了IBM。在IBM的逾10年光阴里,她不仅仅仅带领团队进行集成电路技术创新方面的工作,最重要是苏妈在IBM创奇人物尼古拉斯.多诺弗里奥身边学习到很多优秀的管理才能,经验以及如何应对困难,解决问题的信心和文化。

在IBM,苏妈有段时间负责开发了新的互联工艺——铜互联材料,当时的互联工艺制程还是铝-钨工艺,于是她立排众议,主张用铜来代替铝导线。这是因为铜比铝的电阻系数要低3倍,而低电阻系数,能够减少发热量,方便未来集成更多的晶体管数量。

但是铜互联材料也面临一系列的工艺难题,首先铜很容易在二氧化硅上扩撒而导致漏电,极容易导致晶体管失效;其次铜无法用干法刻蚀,而且附着性不如铝,因此铜互连工艺和过去的铝互连工艺相比难度大不止一丁半点。最终苏妈最终带领团队突破了技术瓶颈。首先用CVD法形成一层掺入氟离子的二氧化硅,形成FSG的Low-K(低介电常数)材料的缓冲层,同时刻蚀部分区域形成形状,接着再用PVD法(物理气相沉积)分别沉积成钽,氮化钽和铜种子层,再用电镀法沉积铜溶液形成铜互连,同时改进CMP铜抛技术,解决表面不平整问题,从而进一步提高了高晶体管的密度,降低损耗,最终成功实现让芯片的性能提升了2倍。这一整套工艺有个形象而古老的名字——大马士革工艺,又叫镶铜工艺,一直沿用至今,成为12英寸金属互联布线工艺的核心,苏妈功不可没!

铜互联+Low-K工艺在IBM发明后于1998年推向市场,成为8英寸130nm到12英寸工艺90nm的关键节点技术,而这次铜工艺革命也影响着当时台湾两大代工巨头联电和台积电的命运。最终这场工艺大战中,台积电由蒋爸带着梁孟松等一干得力干将用更好的技术打败了联电而赢得了胜利。(点赞过千,UP这段历史)

铜互联制程的成功很快让苏妈脱颖而出,升任IBM研发部门主管。随后IBM拨下一笔经费,研发Cell Chip。这种早期的异构架多核心的解决方案,让众多游戏厂商的主机性能突飞猛进,索尼的PS3对比PS2性能提升了一千倍!甚至还能处理3D图形和音效,随后微软的X-BOX和任天堂也找上门来,三大游戏厂商都开始使用这套技术。于是苏妈又多一个新称号:Video Game Technology Queen!游戏女王!

这次开发异构架多核的经历弥足珍贵,也让苏妈对异构架芯片集成有了更深刻的理解,让日后AMD和英特尔大战中绝地翻盘埋下伏笔。

2007年,Freescale Semiconductor(飞思卡尔)邀请苏妈担任首席技术官。飞思卡尔原本是摩托罗拉的一个事业部,曾为阿波罗登月项目生产芯片,后被剥离出去成立新的公司。苏妈到飞思卡尔之后任CTO,主要负责网络芯片业务,最终带领飞思卡尔在2011年上市,再一次证明了自己的才华。(飞思卡尔后被荷兰NXP收购,收购同时NXP为了过反垄断审查,把自己原来的功率器件业务和射频业务拆分也就是现在的安世半导体和安谱隆,后均被建广资产收入囊中,其中安世卖给了闻泰科技,最近安谱隆卖给了锡产微芯,点赞过千,UP这段故事)

2012年,陷入谷底的AMD,已经到了崩溃边缘,股价不足1.6美金。

在这种生死存亡的关头,AMD花高价请来了刚刚带领飞思卡尔上市的苏妈来救急。

当时恩师多诺弗里奥已经从IBM退休,但没闲着而是进入了AMD董事会帮助AMD筹划扭亏战略。AMD的问题根深蒂固,但也有一群天才工程师和以及独家知识产权,因此急需一个强有力的领导人带领AMD脱困,于是多诺弗里奥就请来自己的爱徒苏妈。

多诺弗里奥回忆道,当时对苏妈说:“这个时机太适合你了。”

“您说的太对了。”苏妈爽快地答应下来。

于是苏妈在2012年离开飞思卡尔加入AMD任CTO。她迅速组建团队,首先在游戏业务方面投入资源,帮助AMD做到了这个领域的老大,凭借这个业务赚取的利润,减轻了AMD此前连年亏损带来的压力,帮助AMD暂时度过了危机。

2014年,苏妈因为工作出色从CTO升任CEO,带领AMD第二次凤凰涅槃。

苏妈上任之后,经过深思熟虑认为:“我们拥有世界领先的技术,但我们同时开发的产品太多,导致我们没有明确的目标和重点。”

随后,她提出了AMD公司的三大目标:打造伟大产品,深化合作伙伴关系,简化业务运营,让AMD重新聚焦于自身最擅长的CPU和GPU研发,承诺按时推出新产品。当时AMD并没有盲目跟从移动端处理器的开发,而是长期聚焦在高性能计算市场,重点市场包括数据中心、个人电脑、游戏主机等。面向高性能计算,争夺高端市场,逐渐成为AMD发展的主要策略。

在2017年,AMD凭借推出的全新研发的"Zen"核心架构,大获全胜,打破了英特尔在市场上长期的主导地位。

为什么积贫积弱的AMD在苏妈带领下短短几年时间就突然大翻盘?

在这个过程中,苏妈干了三件非常重要的事:第一、请回几位技术大牛,并充分相信他们,让他们尽情发挥;第二、芯片制造订单从格罗方德转移到台积电,让AMD的工艺水平追上英特尔;第三、在未来芯片技术发展路线上,没有盲目跟随英特尔的高集成度的大核SoC路线,而是选择了多chip的小芯片的路线。

人才引进方面,苏妈邀请了前IBM重臣、曾帮助史蒂夫.乔布斯开发用于iPhone系列芯片的多诺福里奥担任首席技术官,还引进其他明星工程师,其中包括拉加.库德里。当苏姿丰2015年将AMD所有图形芯片业务整合为一家公司,选择的负责人就是拉加·库德里。

当然最重要的还有辣个男人,曾经AMD辉煌的缔造者——Jim Keller

"硅仙人"—— Jim Keller

前文提到过,在“钟摆策略”下的英特尔犹如精密的战争机器,是这个世界上最可怕的竞争对手。英特尔在构架上和制造工艺方面,遥遥领先于AMD。

怎么办?

AMD如果还想逆袭那必须抛弃原有的构架重新开发一款新的构架,同时制造工艺上要能和英特尔看齐。

带领这些天才工程师开发新构架,谁能担起这个重担?苏妈的选择是请回当年开发K7&K8构架,以及HT总线技术的总设计师,在硅谷有着“硅仙人”外号之称的 Jim Keller。

被苏妈拉过来开发新产品之后就变成这样了,暴瘦几十斤,我很想知道Jim Keller在苏妈手上到底经历了什么?

Jim keller 外号叫“硅仙人”。

关于他段子颇多,什么“Jim Keller 站在任何一家公司大门口20秒,就会自动变成高管”,“AMD 有个按钮,有难的时候一键就能把Jim keller 召回”……

虽然都是调侃,但是显然是对Jim Keller一生化腐朽为神奇能力的极大肯定。

Jim Keller 毕业于宾西法尼亚州立大学,在那里获得了电子工程学士学位。与其他芯片领域大神常见的动不动就是名校博士生不同,Jim Keller学位一直就是学士,但是学士学位就有这样的非凡成就,真乃神人也。

毕业后,Jim Keller 供职于当时如日中天的DEC公司,并且一干就是15年。

当他是一个芯片新人的时候,当时在DEC接受培训,有人进来讲了一个关于构架层次设计问题,然后Jim Keller觉得这个人说的一半有道理,另一半则非常愚蠢,然后就和这个人开始争论。一个小时后,谁也没有说服谁,直到这个人走了,旁边的人才告诉Jim Keller,那个人是戈登.贝尔,我们DEC的首席技术官。

这位戈登.贝尔也是一位技术大牛,被誉为“小型机之父”,还有一个以他命名的奖项,戈登.贝尔奖(GORDONBELL PRIZE),主要颁发给高性能应用领域最杰出成就,通常会由当年TOP500排行名列前茅的计算机系统的应用获得,中国的太湖之光的应用也曾获得此殊荣。能够和自家CTO争论一番也是人才,不过在Jim Keller 眼里才不管你是不是CTO,是不是技术大牛,说的有道理就赞同,没有道理就要力争一番。

在DEC的十五年,Jim Keller 参与和主导了并参与了Alpha 21164和21264两款处理器的设计,这两款处理器影响了很多架构师和设计者,而他也从“初生牛犊不怕虎”的敢和CTO当面争论的芯片新人成长到一个可以独挡一面的芯片架构大师。

(Alpha 成就 Get)

离开DEC之后,Jim keller 开始了他开挂般的人生。

Jim keller先是在AMD担任处理器K7&K8的架构师,前文提到的K8构架中的HT总线技术就是他的手笔,K8架构第一次让AMD具备了可以和英特尔掰掰手腕的能力,同时还参与设计了X86-64的架构设计,X86-64架构使AMD第一次在技术路线上领先了英特尔,这两项成就都让Jim keller名声大震。

( X86 成就 Get)

随后Jim Keller 去了sibyte 做基于MIPS的网络处理器。后来2004年离职加入P.A. Semi。

(MIPS & Power/PowerPC 成就 Get)

2008年,苹果出手收购P.A. Semi,Jim Keller也自然成为苹果公司的员工。在苹果工作期间,Jim Keller主持设计了苹果A4、A5两代移动处理器,用在iPhone 4/4s、iPad/iPad2等产品上。而从iPhone 4时代开始,苹果引领了整个智能手机时代,成为这个时代的巨无霸,其中A4/A5处理器的成功研发,奠定了苹果自研手机处理器之路,这让苛刻的乔布斯都感到非常满意。要知道苹果最早的iPhone3的处理器来自于三星,能够抛开三星,自主设计定制自己的处理器这个是一个非常大的进步,最关键的是在Jim Keller带领下,苹果锻炼出一支实力强悍的芯片设计团队。自此苹果手机的处理器始终保持极高的水准,甚至引领业界开创64位处理器,并且定义了其中相当多的64位指令集。难怪当年iPhone 6年代苹果能把众多安卓厂商吊着打,这和苹果先进的处理器构架以及指令集构架方面的优势密不可分,ARM的64位处理器都是我定的标准,是我带着各位玩的,各位想和我扳手腕?

(ARM 成就 Get)

2012年,Jim Keller 被苏妈“一键召回”,重回AMD然后继续他的封神之路。回归AMD后,他开始着手主持设计新一代微架构,代号为:Zen,这是一个革命性的架构,这个架构号称将把AMD处理器性能提升40%。

当时项目组的都觉得这是无法实现的目标。大家都是在这个行业的人,都有自己专业的判断力,性能突然提高40%?这怎么可能?当时的副总裁Suzanne打电话给Jim Keller说,”Zen“项目组不相信这个目标是合理的,因为太超出实际了,不相信这个目标可以达成。Jim Keller则回复:我需要一个会议室和一块白板。

(可见芯片公司有一块好的白板有多重要)

当进入会议室时,面对众人的质疑,他开始舌战群儒,向大家解释为什么”Zen“可以做到。

Jim Keller的理念是:AMD已经大幅落后于英特尔,但是路线图并不激进。 如果处于落后地位,还按部就班,那么就是死局。因此为了扭转局面,至少要目标要定在性能提高40%上,他计划把Zen做成一个大核,让IPC每个时钟执行的指令数目更多,同时设计新的总线,处理器更大的基础结构非常重要,保证整体设计不弱于英特尔。

会上发生了激烈的争论,最终在Mike Clark(AMD功勋元老,AMD企业院士)力推之下,成功的说服了所有人。 Mike Clark说,虽然过程中有很多困难,但是这些问题都可以解决,并非遥不可及,“我们很难才去说服我们的团队我们能够实现40%的改进,这是一个非常难以实现的目标。但是为了更具竞争力,我们必须实现!”

最后的故事,大家都知道了,“Zen ”大获成功,成就AMD第二次凤凰涅槃。

“Zen”架构成为了AMD历史上又一款著名的架构,Jim Keller 也获得了“Zen之父”的美誉。不过Jim Keller 则谦虚的称:“我最多算Zen的叔叔,毕竟代码不是我写的”。但是确实团队在他带领下脱胎换骨,战力飙升。

2015年,“Zen”发布后,好评如潮,AMD大获成功,只是那时他已经离开AMD,并未看到Zen上市那一刻。尽管Jim Keller 已离开AMD,但是他带出来的团队已经能够独当一面,这保证AMD香火不断,未来依然有一战之力。

从Zen到现在最新的Zen5, Jim Keller说出了一个事实:就是芯片设计要考虑长远,没有前瞻性的路标,就会处处受挫,步步落后于对手。芯片的研发周期,特别是大型芯片的研发周期在12个月甚至更长的时间,从构想,设计,量产,市场反馈,短则1-2年,长则更久,因此要看到5年后的芯片形态就非常重要,这需要Leader有足够的的远见,幸好Jim Keller就是这样富有远见且坚韧不拔的家伙。

Jim Keller的理念就是:做正确的事,而不是容易的事,因为仅做容易的事,往往就是投机取巧。

2015年9月,Jim Keller再次离职AMD,这一次是被“钢铁侠”埃隆.马斯克说服,Jim Keller要给特斯拉的自动驾驶研制世界上最好的Ai芯片!这次在Jim Keller在特斯拉工作三年,最终特斯拉的研发的Hardware 3.0 FSD Ai芯片最终成为业界最强。

(Ai 芯片成就 Get)

2018年,Jim Keller 入职英特尔。在英特尔,他领导了10000人的工程师团队,这个记录很难被打破,由于和英特尔签署保密协议的,所以这个阶段Jim Keller到底做了些什么,一直讳莫如深。

2年后,2020年,Jim Keller离开英特尔去创业,担任Tenstorrent的联合创始人兼任CTO,负责Ai方面的创业工作。Jim Keller这次是在Ai/ML芯片领域的创业显额很有信心和激情。一方面是因为可观的股份,另一方面也有对他忽悠来创业朋友的承诺。

Jim Keller 除了高瞻远瞩的把控未来芯片发展之路外,最重要的是能打造一支一流的设计团队,在AMD如此,在苹果如此,在特斯拉也是如此,强将手下无弱兵!

(卓越的领导力&培养力&组织力 成就 Get)

AMD的杀手锏——Infinity Fabric

在Zen系列上,除了对原有指令集和构架的更新,最重要的是,彻底贯彻Jim Keller的理念,即基础构架是最要的!这次又他又拿出新玩意儿,一款新的总线技术—— Infinity Fabric 总线。

Infinity Fabric 脱胎于原来的HT总线技术,但是和HT技术并不兼容。相比对外开放的HT总线技术,Infinity Fabric总线则是AMD的专利技术,想要用要必须给AMD交授权费。

Infinity Fabric 总线由传输数据的SDF(Infinity Scalable Data Fabric)和负责控制的 SCF (Infinity Scalable Control Fabric)两个系统组成。如果把Infinity SDF比作芯片运输数据的血管,Infinity SCF就是芯片的神经了。

可以说Infinity Fabric 是AMD这个时代的基石,它的传速速率从30GB/s开始最高可以到512GB/s,这个水平已经超过英特尔的总线了。

AMD有了新的总线构架,于是又提出了一个新的理念:让不同类型的芯片进行异构融合。

AMD收购ATi之后,拥有了CPU和APU/GPU技术,但是如何“融合”到一起变成难点,因为CPU和APU都属于比较难大型数字电路,设计难,制造也难。因此AMD提出这么一个设想:能不能分开设计和制造再用一条总线连接到一起?变成一个组合方案?这样就能更灵活更高效的拿出产品方案。

于是AMD开始动手,开启核心模块化之路。

CCX到CCD的尝试

首先AMD在锐龙处理器中做一些尝试,多核CPU的堆叠开始走模块思路,即CCX到CCD。

CCX是CPU Complex的缩写,它是AMD Zen架构的最基本组成单元,每个CCX整合了四个Zen内核,每个核心都有独立的L1与L2缓存,核心内部拥有完整的计算单元,不再像此前的推土机架构共享浮点单元,这四个核心将共享L3缓存,每个核心都可以选择性的附加SMT超线程,另外CCX内部的核心是可以单独关闭的。

基于Zen架构的产品中可以存在多于一个CCX,其实非APU的产品内部都有两个CCX,即使是锐龙5 1500X这样的四核处理器也是由两个CCX所组成的,而锐龙5 2400G这样的APU和所有的AMD移动处理器内部都只有一个CCX,CCX之间使用高速Infinity Fabric进行通信,这种模块化设计允许AMD根据需求扩展核心、线程和缓存数量,针对消费客户,服务器和高性能计算市场推出不同的产品。

尝到甜头之后AMD再前进一步,在CCX基础上改进出CCD模块。

CCD是Core Chiplet Die的缩写,是伴随新的Zen2架构处理器所诞生的缩写。Zen2架构处理器不是一个封装在一起的大核心,而是被分为了CCD核心以及I/O核心两个部分,其中CCD核心是单纯的计算核心,里面包含两个CCX,也就是每个CCD是8核16线程的,而内存、PCI-E、USB以及SATA控制器都被整合到I/O核心里面,而这些核心会被一同封装进一颗锐龙3000系列处理器里面。

然后CCD核心以及I/O核心之间采用第二代Infinity Fabric总线连接,它在扩展性、延迟和能效方面都有所提升,总线位宽从256-bit翻倍到512-bit,单位功耗降低了27%之多。AM4平台上所用的I/O核心最多可与两个CCD相连,也就是最多16核,而TR4平台上所用的I/O核心是可连接8个CCD的,所以最多可达64核。

把计算核心和I/O核心分开这样的设计其实有点像以前的南北桥设计,CPU只负责计算,而通信都交给北桥,而南桥则是北桥的一个手下,只不过AMD现在是把CPU和北桥封装到一块PCB上罢了。

虽然这样设计必然会增大延迟,同时这样结构并不利于CPU核心与内存控制器之间的数据交换,作为补救措施AMD增加了Zen 2架构内的L3缓存,与上代相比直接翻了一倍,并且使用了新的指令预测机制,延迟的问题其实很大程度上已经得到了解决。

但是从综合性能上看,单核损失的性能可以靠堆叠更多的CCD模块实现,你四核,我就六核,你八核,我就十核,多核心可以带来的性能巨大提升,虽然看似成本更高,但是因为设计难度和制造难度远低于竞争对手,反而综合成本更低,传导到终端产品体现出更好的性价比优势,最终实现逆转。

这种分开设计,模块化组合思路被证明是可行的,而这一切都因为Infinity Fabric 总线成为现实。

接着AMD为了让CPU,GPU,APU以及其他高性能运算核心能够更好的互相协同工作。AMD提出了“融合”+“黏合”的概念。

Infinity Fabric 定义了AMD内部SoC IP区块的通用控制方式,无论是“融合”或是“黏合”都能有一个条高效,高性能的总线串联其各个核心,满足海量的数据交换。甚至PlayStation4和Xbox One后继机种的SoC都可以这样设计。

其实这就是Chiplet小芯粒的设计思路的运用。

使用了Chiplets小芯片的设计思路,通过用不同的工艺制造后,再来集成到一起。Chiplets设计不同于以往的英特尔奔腾D的“胶水双核”,本质上是把不同工艺、不同架构的芯片电路按需搭配,比单纯的硬拼要高明多了,工艺也复杂多了,需要运用TSV通孔硅技术和2D/2.5D/3D 封装技术。

Infinity Fabric 成为AMD的技术与产品实现的基石!


极致性价比的秘密

总线Infinity Fabric技术虽好,但是看起来似乎使用比竞争对手更多的核心,成本的问题不可能被忽视,这样如何平衡性能和成本之间的关系呢?

上文提到,Zen2中,CCD和I/O实际上分开生产,再封装到一起。这里AMD又来了次业界首创。将处理器各种模块用不同的工艺生产!

比如CCD核心使用7nm工艺生产,而I/O核心则采用更为成熟的12nm工艺。所以Zen2是一个“7+12”的混合制造方案。

在7nm节点上,一款芯片的流片时仅支付的IP费用高达3亿美元,哪怕对于AMD这样大公司而言成本也是相当昂贵。CPU核心对性能要求高,对功耗也敏感,提升工艺对CPU核心来说大有裨益,好钢要用在刀刃上,因此核心单元用7nm工艺制造。而I/O核心整合了内存控制器、PCI-E控制器等I/O单元,这部分电路对性能、功耗要求没那么高,而且I/O单元并不容易随着工艺微缩,所以使用的是相对低一档的工艺,因此使用改良版的12nm工艺足以。

于是就有这“7+12”的混合工艺制造方案。

这种把各种裸芯片封装到一起是不是有点眼熟?前文提到过的英特尔奔腾D系列,以及第一代酷睿处理器都使用过这样的技术,甚至苏妈早期给游戏机公司搞的Cell Chip 也有异曲同工之妙。

最重要的是这样的方案,芯片面积差别太大了,导致成本天差地别,有人会不解,按理用低一档的工艺不是会导致芯片面积更大吗?

我们拿英特尔14nm时期Skylake架构的那几兄弟举例:

七代i7,原生4C Ring,Die面积为122mm²左右;

八代i7,原生6C Ring,Die面积为153.6mm²左右;

9900K,原生8C Ring,Die面积为180mm²;

11900K:原生8C Ring,Die面积为280mm²,

可以看到随着CPU的微架构每次带动IPC/CPI大进步的时候都会带动微架构规模的暴涨(变得更宽、更深、更多),最终导致CPU Die(裸芯粒)的面积不断增大。

面积这么大有个最直接问题——成本奇高无比,同时也带来更大的功耗。

晶体管数量更多,就会使晶粒的面积更大,那么最终在12英寸晶圆上可切割的数量会更少,而且如果晶圆上某个点存在缺陷,就会导致这个面积下的整个芯粒直接报废,因此最终得到的能用的CPU会更少,最终成本居高不下。

在Zen 2架构中,一个chiplets芯片的总面积才74mm²,其中CCX+16MB L3缓存的核心面积才31.3mm2,同比减少了47%,一方面是因为7nm工艺的密度优势,一方面也跟Zen2的CCX只有CPU核心有关,减少了I/O单元后富裕的空间可以大幅增加L3缓存,因此每个CCX翻倍到16MB L3缓存,但是CCX核心面积依然减少一半左右。

拿AMD的一个CCD核心面积只有80mm²都不到和英特尔280mm²的芯片一比,高下立判。同样一片12英寸的晶圆上切割的可用晶粒的数量AMD比英特尔多好多倍,因此成本大幅低于英特尔,而且节省下来的空间就上来更大的L3缓存,更大的缓存带来性能上的提升也是肉眼可见的!

芯片有三大核心指标,P.P.A,Performance(性能),Power(功耗),Area(面积尺寸),无论除了性能和功耗,面积也是必须要考虑的问题。面积越大,良率就很容易下降,成本就会上升,因此如何如何不能忽视面积这个关键因素。

当然混合生产之后还要封装到一起难度也不小,于是AMD的神队友来了!

不再坑爹的队友

构架的问题基本得到解决,新型总线技术也开始发挥威力,接着就是芯片制造的问题,毕竟再好的设计理念也要造出来才能赚钱。

AMD此前被英特尔吊打的原因,除了核心构架设计不如英特尔之外,还有一点极其重要的原因就是猪队友坑爹的制造水平拖累。

谁?

曾经的“女朋友”,格罗方德。

格罗方德之前是AMD的制造部门,在AMD收购ATi之后,将其制造部门拆分,随后引入阿布扎比先进技术投资公司(ATIC)这个土豪爸爸后组建了一家新公司——格罗方德,Global Foundries,简称GF,戏称“AMD女朋友”。

虽然从AMD拆分,但是两家人依然保持良好的关系。AMD依然把CPU制造的订单交给格罗方德。但是格罗方德糟糕的工艺水平,拉胯的良率,巨大的发热量,以及不确定的交期,总在关键时刻掉链子把AMD坑的不要不要的。再加上AMD不成熟的设计,于是就造成那几年AMD与英特尔竞争中处处落下风。

苏妈上台之后,虽然依然保持和格罗方德合作,但是逐渐把订单转给了芯片制造水平不弱于英特尔的另外一个集成电路制造大厂——台积电,TSMC。

2018年,AMD新产品上市当时EPY、Ryzen都来自格罗方德14nm工艺,当时AMD和台积电的合作并不深,台积电的16nm只负责少数半定制APU。Zen2 上来的时候AMD想使用7nm制程。结果格罗方德又拉胯了,明确表示放弃7nm先进制程的研发。

无奈之下AMD只能选择和台积电加强合作,于是从Zen2开始全面导入台积电N7以及N7+工艺。(N7+工艺开始导入ASML的EUV光刻机)

结果大获成功!

AMD对台积电的高水平的工艺以及良率赞不绝口,果断加大投片量,如今成为台积电最大的客户之一。

台积电的N7工艺,特别是N7+业界第一个导入EUV光刻机制程,使得台积电的制造水平无人出其左右,这样AMD的7nm芯片与Intel的10nm不相上下。不仅如此,而且还在时间进度上赢了,而AMD的7nm工艺的高性能桌面版处理器出货早于英特尔的10nm处理器。虽然英特尔的10nm制程和台积电N7制程相比,并不是简单看数字大小就判定谁的工艺更先进,因为代工厂的工艺节点和英特尔这类IDM的工艺节点很多地方都是完全不一样的,虽然看起来7nm比10nm更先进,但是事实上英特尔的10nm和代工厂的7nm综合水平相差无几,但是对于并不专业的消费者来讲,7nm和10nm两款差不多的CPU放在你面前,你选谁?

7nm,真香!

正是因为这一点,使得AMD在7nm锐龙处理器上打了一个漂亮翻身仗,这是十多年来AMD首次在工艺及性能上能和英特尔齐平,绝对是历史性时刻。

曾经英特尔引以为傲的集成电路制造工艺水平,在台积电的加持下,使得AMD追上。而英特尔自己的7nm的工艺,就像孔乙己欠咸亨酒店的那十九个铜板一样,不知猴年马月才能兑现。哦不,人家现在直接把7nm产品改名叫 “intel 4”,一步到“胃”。

更好的总线技术加上模块化的设计,再加上高水准的台积电制造工艺,以及更低成本制造方案,从性能到能效到成本都是质的变化!锐龙系列处理器,以价格不到同档次英特尔i7/i9一半的价格,让落后多年的AMD拿回高性能CPU市场的门票, 用更强的性能,超高的性价比把英特尔碾压了!

从此这个市场不再是英特尔的独角戏,英特尔也不再挤牙膏,DIY玩家期待的双雄争霸局面又回来了。


台积电的秘密武器

台积电不仅用先进工艺带领着AMD进入7nm,更重要是台积电用了5年的时候摸索出一套新技术,而这套技术成为后摩尔时代的台积电安身立命之法宝!

前文提到过了,AMD的CCD模块和I/O集成到一起,是分别用7nm和12nm工艺制造,然后在集成到一起的封装方案。这种混合封装方法,最早应该是苹果iwatch上出现。2014年,苹果的iwatch惊艳亮相,小小的iwatch内有各种传感器,控制,算法,蓝牙无线模块等各种芯片,如果在普通PCB板上集成这些芯片,那iwatch怕是比你手掌还大,当时台积电就是开发了一套先进封装工艺,把各种需要用的裸芯粒直接封装到一起,大获成功,从此之后这种先进封装方案在手机等消费产品上大行其道,再接着就是高性能的矿机上使用,后面就是AMD这种高性能处理器也开始用这种封装集成方案。

台积电在为各种客户定制的几代产品的集成方案上,做了许多尝试,最终形成了一整套先进封装集成工艺,包括2D/2.5D/3D封装等。



上图a是传统的SoC 方案,在单颗芯片(Sigle Die)上实现最大规模的线路即把所有的IP核设计到一起,属于传统的系统LSI(SoC)方案。

b是3D Stack,为在逻辑芯片(Logic Die)上堆叠逻辑芯片(Logic Die)或者存储芯片的方案(SoIC),海思巴龙5000曾用过这方案,基带芯片下挂了一个美光3GB的内存颗粒。

c为水平放置逻辑芯片(Logic Die)或者存储芯片的案例。

d为在(c)的基础上,堆叠传感器芯片(Sensor Die)、高电压线路(HV)、逻辑芯片(Logic Die),或者存储芯片的SoIC案例,这是现在以及未来的异构集成方案。

最终台积电把各种封装技术集合到一起推出一个新的工艺平台和品牌,取名“3D Fabric”。

“3D Fabric”原来的2.5D/3D 集成化封装技术重新整合而来,由前道芯片级堆叠封装Front-end(FE 3D) 和后道先进封装Back-end(BE 3D)两处工程构成。

FE 3D之前叫TSMC-SoIC,由CoW(Chip on Wafer)和WoW (Wafer on Wafer)两种封装键合工艺。Front-end(FE 3D)是一种堆叠硅裸芯粒(Silicon Die)后并相互连接的工艺技术。有多种分类,如将采用不同代际技术生产的硅裸芯粒连接起来的技术、把硅裸芯粒与其他材质的Die搭载于同一块基板上的技术等。

通过采用硅穿孔(TSV)技术,台积电 SoIC 技术可达到无凸起的键合结构, 从而可将不同尺寸、制程、材料的小芯片重新集成到一个类似 SoC 的集成芯片中,使最终的集成芯片面积更小,并且系统性能优于原来的 SoC。

Back-end(BE 3D)是一种高密度地把多个硅裸芯粒(Die)连接起来的同时,再与封装基板连接的技术。之前,TSMC开发了用于智能手机的封装技术“InFO(Integrated Fan-Out,集成扇出型)”在苹果手机芯片上非常成功。而高性能计算机的封装技术“CoWoS(Chip on Wafer on Substrate,晶圆级封装)”包括英伟达和AMD的都使用过这套先进封装技术,取得不错的效果。

台积电在与AMD,苹果,高通,英伟达多年的合作中,终于把设计公司想要的方案落地变成现实。也让每一代芯片都有比上一代芯片更强的性能。

如果说Chiplet小芯粒异构架集成是IC设计公司的理论和想法,台积电的“3D Fabric”则把想法落地的硬件保障。

Chiplet成为后摩尔时代的灵魂,而3D堆叠封装则成为后摩尔时代的肉体,两者共同从另外一个维度打开了后摩尔定律时代的大门!


总线的故事(五)—— CXL联盟诞生

现在计算机系统里的CPU和内存无论内外部已经不再有短板,只剩就是把其他其他重要的外部高性能计算单位也更好的整合进来,例如GPU,DPU,Ai,以及其他专用ASIC了。换言之,CPU和GPU们能不能的更好的连接到一起,同时合理分配内存资源,发挥更强的协同性能?

英特尔表示你们想的美!

实际上在过去几十年的时间里,CPU的存储子系统部分,几乎是被英特尔完整地封闭在它私有的生态里面。为了赚钱英特尔想尽一切办法限制你。比如在合作合同里面严格限定了能做什么、不能做什么,包括HP、Dell、联想,任何想在内存上做点手脚的优化,都是不能做的,甚至同样核心的一颗CPU,就因为支持不同容量的内存,都能卖两个价格。

英特尔一直以来打造理念就是CPU是宇宙中心,这种思路为CPU销售上的高溢价是很有帮助的。但为了维持保持这种中心化的形态,英特尔干了不少缺德的事。比较典型的案例:某些内存数据库,缺的不是算力,就是缺内存容量想扩展的,不行,你得买CPU才能扩内存。历史上有很多公司尝试过某些歪路子,例如利用QPI扩展,要么失败,要么被英特尔制止,总之被限制死死的。

想绕开CPU,让内存和其他处理器直连?门都没有!

同时英特尔还把持着PCI-E的标准。PCI-Express,peripheral component interconnect express,简称“PCI-E”,它是一种高速串行计算机扩展总线标准,它原来的名称为“3GIO”。在90年代时替代了ISA总线后,PCI总线成为计算机局里的I/O总线标准一直使用至今。在2001年,英特尔提出更强的PCI-Express总线标准,旨在替代旧的PCI,PCI-X和AGP总线标准,这个接口规范组织PCI SIG里虽然有不少其他大佬,但是由于在系统里PCI-E必须和CPU互联,因此英特尔就又有很强的话语权。

从主板上显卡的专用接口就从AGP变成PCI-E开始,英特尔又开始搞垄断了。

总结起来,因为过去英特尔在CPU上的强势,造成两个最重要的资源内存资源和系统总线PCI-E都被英特尔卡死死的,所有人都要听命于英特尔,毕竟这是绕不过去的门槛,英特尔在CPU上随便整点花样,你就要买单,趁机就能赚更多的垄断利润。所以英特尔是这个世界上最封闭的家伙,出了名的吸血鬼。

近年来,因为自家挤牙膏能力不足,为了避免其他设备异构架芯片比如GPGPU这些玩意儿喧宾夺主,英特尔故意阻碍了PCI-E接口的演进,明明提频到64G/s甚至更大带宽的都是早就能做的事,英特尔就硬是要拖着不给增加,真拿它没办法。

天下苦英特尔久已!不管是谁都很想打破英特尔的垄断。

特别英特尔拖着PCI-E不提速,其他公司早就不爽了,纷纷弄出各种总线技术组成各种联盟来和英特尔竞争。大家都希望通过新的总线技术能突破英特尔的垄断和封锁,比如英伟达的NV Link,IBM主导的OpenCAPI,反“英特尔阵营”的Gen-Z等等。即使初衷略有不同,但它们的最终目的,简单理解就是将内存虚拟成一个全部运算单元共享的共享池,不让CPU一家独占,同时让自己的处理器和其他设备能够更方便的互联。

于是各路人马都在总线构架这条“芯路”上争的面红耳赤。不过英特尔都不当回事,你们随便玩,我CPU不跟,你们就翻不出什么花样了。

其中反应最激烈的当属英伟达的老黄,老黄一直都在反抗CPU为中心。

老黄一直喊话:英特尔,求你做个人吧,改改GPU和CPU之间的PCI-E接口吧,这老爷车的速度实在受不了。因为纵使显卡性能逆天,但是接口速度带宽摆着,无法发挥出最强协同效果。

英特尔一直无动于衷,于是老黄就搞以CUDA为中心,去CPU中心化,毕竟谁愿意做配角呢?CUDA的存在从第一天起对CPU就是不友好的,因为CUDA在GPU内部有私有内存,并且通过CudaHostAlloc要求CPU强行抓住部分主内存地址给它用,一个大颗粒的计算任务,在GPU内部独立完成CPU原本承载的任务调度和内存分配工作,在CPU隔壁建立起一个完整的独立王国。

英特尔一直拖着不给PCI-E提速,对发挥GPU的性能影响是很严重的,所以英伟达不得不搞了自己的NV LINK来互联GPU之间的交换,并且快速把速率提升到25G。不过呢,NV LINK需要额外的单板支持才能互联,大多数单板只有PCI-E槽位,很难大范围推广。所以英伟达只能持续挖潜,大搞PCI-E上的GPU 直连技术,用PCI-E点对点直通,去CPU中心,这里面包含了SSD的直连技术,还有和Mellanox合作的远程直接数据存取直连。

不过英特尔也是狠角色,在skylake核心开始,PCI-E点对点直连性能只有2GB,满带宽32GB。英特尔说这是他们设计上的一个bug,虽然是bug,但长期驻留勘误表,作为bug就一直没被修正。

这个bug让英伟达欲哭无泪,要直连就得再在单板上加装一颗PCI-E接口开关芯片,成本高的不行。于是英伟达直接购买了网卡公司Mellanox,可以预见的未来,所谓DPU DOCA一定会增加某种接口或者手段,保证GPU和网卡之间的高效直通,继续向去CPU中心化的道路前进。

但是三十年河东三十年河西。但是没想到而云计算,Ai这一波的爆发,给了英伟达GPU带来巨大增长空间,让老黄笑的合不拢嘴,因为云服务为了增加算力买GPU越多,买CPU的就越少。

云计算时代下GPU大卖还是让英特尔感到深深地不安,英特尔的CPU就是宇宙中心,就是你大爷的根基被动摇了。

你要是英特尔,你咋办?莫非笑看老黄一骑绝尘?然后回头继续挤牙膏?

面对GPU以及其他各路人马的围剿,英特尔深思熟虑一个月后做出一个违背祖宗的决定,主动把蛋糕放到了桌子上!

最终,英特尔破天荒的鼓起勇气打开大门,搞了一个新的互联总线标准联盟——CXL联盟,表示欢迎各位大爷来玩。这个总线技术底层技术就是PCI-E。也就说英特尔把PCI-E技术拿出来,给行业让利!

2019年3月,英特尔公布了牵头开发的CXL开放互连技术,表示CXL互连总线技术将服务于下一代高性能计算、数据中心,底层基于PCIe,可消除CPU与设备、CPU与存储之间的计算密集型工作负载的传输瓶颈,显著提升性能。

并在同年9月20日,在英特尔主导下,包括阿里巴巴、思科、戴尔EMC、Facebook、Google、HPE、华为、微软等业界巨头们联合宣布,CXL联盟(Compute Express Link Consortium)正式成立,并公布了新的董事会成员。

在未来随着数据爆炸式增长,以及特定工作负载的快速创新,例如压缩、加密和人工智能等促进了异构计算中专用加速器和通用CPU的协同工作。这些加速器不仅需要与处理器实现高性能连接,理想情况下,它们还能够共享一个公共内存,以减少损耗和延迟。在PCIe 5.0高带宽时代,CXL将会成为一项关键性技术,使加速器和CPU之间实现更加连贯的内存共享。

CXL在CPU和工作负载加速器如GPU、FPGA 和网络之间创建了高速、低延迟的互连性,使设备之间实现内存一致性,允许资源共享,从而获得更高的性能、降低软件堆栈复杂性,以及更低的总体系统成本。

CXL在提供CPU/设备内存一致性,降低设备复杂性,以及在单一技术中提供行业标准物理和电气接口,以获得最佳即插即用体验方面,有了独特的价值,所有人都皆可以自由运用CXL技术,给自己家产品或者直连别人家芯片或者和所有人更好的共用内存空间。

CXL就像顶级食材,就看各位厨子怎么做出精美的食物了。

这就是英特尔放到桌子上的蛋糕,一次对产业的巨大让利,但是也有人说这英特尔的阴谋2.0。

CXL联盟诞生没多久之后,之前反英特尔的Gen-Z阵营就基本倒向CXL了。


总线的故事(六)——UCle联盟的诞生

CXL联盟建立没多久,在CXL基础上发展出来的,由更多行业大佬参加的新的总线标准UCle来了。


2022年3月3日,全球知名芯片制造商英特尔、台积电、三星联手芯片封测龙头日月光,携AMD、Arm、高通、谷歌、微软、Meta等科技行业巨头推出了一个全新的通用芯片互连标准:通用小芯片快连,Universal Chiplet Interconnect Express,简称UCle标准。

该协议专为chiplet而设置,旨在为小芯片互连制定一个新的开放标准,简化相关流程,并且提高来自不同制造商的小芯片之间的互操作性。该标准下,芯片制造商可以在合适的情况下混合构建芯片。

UCle联盟之前的CXL联盟相比,这里面多了台积电,日月光等制造型公司,依然不变的是选择强硬到底不和英特尔同流合污的老黄,(老黄不要怂,就是干它!),以及表示我木有兴趣的苹果。

老实说,这文长文创作到一半的时候看到新闻的时候洒家还挺兴奋的,想啥来啥,为我提供了更多的写作素材,但是随后表示MMP,一是又花了好多时间和精力去学习UCle,拉长了本文的写作时间,导致后续文章被催稿催死了,第二是UCLe标准深究之下你说英特尔的阴谋2.0我也信。

首先Chiplet的接口物理层依然是一片混战,比春秋战国时期的文字还混乱,目前没有一个明确的统一的路径和共识。

上表之中是几个已经商业用的chiplet的接口协议,包括intel、AMD、TSMC都在内,无论是带宽密度、延迟、能耗,差别巨大,因为他们各自在进化路径中都选择了其各自不同的进化路径。他们之间是无可能互联的。

除开接口规格,chiplet本身的封装形式带来的物理约束也相差甚大。包括上文提到的台积电“3D Fabric”的全家桶,工艺种类多,价格规格随便选,但实际上几种封装技术的管脚的最小间距是不一样的,从20微米到150微米不等,最开始不商量好,后面是无办法弄成"die-to-die"的。

硬件之外,协议层呢?

UCle用的是PCI-E+CXL的方案。

知乎大佬夏晶晶总结:

假设你是一个chiplet接口的设计者,你希望设计一个能够独立自主、流芳百世的接口协议,你说,我复用PCI-E,甚至狠一点,intel UPI的协议 ? 行不行?

嗯,如果你在今天的俄国,你可以的。这里面的专利和授权,一环套一环不说,你觉得PCIE SIG组织同意不?

假如做一个有点像PCI-E一样的接口协议行不行? 客户信得过你吗?还是能读得懂你?

所以,谁能定一个chiplet协议,并且用PCIE/CXL做协议层呢? 答案只有一个,英特尔。

再思考一下英特尔在这个局中的位置。

前一段时间有一个新闻,是说英特尔授权X86 CPU软核IP给客户,实际上这屁用没有,你不可能用英特尔软核代码再整一个CPU出来,这里面工程量太复杂了,其次你也没有英特尔的工艺,英特尔是IDM厂,它的标准晶体管单元制造工艺自成体系,你造不出来的。

英特尔的算盘是希望通过卖X86 核心芯粒给客户二次集成定制的方式实现对原本的fabless和foundry的商业模式的超越。你认真想一想,这种跨流程的商业模式,是不是一种极具想象力的生意? 搞得不好真的就是英特尔的二次腾飞。只要他家的芯片有竞争力,做下来比你在TSMC最先进工艺的投片费便宜,是不是很香,再想一想你是不是已经付不起台积电的投片费了?

闹半天,用的越多,英特尔生态圈就越大,依然是给它在砌围墙……,所以洒家研究了半天,觉得UCLe是英特尔的一次让利,更是一次扩大版图的机会,保证英特尔江山不倒。


总线的故事(七)——Mochi没有完成的梦想

早在2015年Marvell 曾提出过一个方案,Marvell MoChi 模块化芯片技术。

当时提出这个想法也很简单,保持芯片设计的灵活性,同时降低成本,特别是制造工艺方面的成本。

在2015年,业界已经看到随着半导体工艺尺寸进一步缩小,集成电路制造面临的挑战日益增大,“摩尔定律”日趋放缓,急需一种新方案来给“摩尔定律”续命。

从专业的技术角度而言,整个芯片分成负责运算的数字电路部分和负责信号控制,I/O输入输出部分,以及缓存等各个部分。

使用越先进的制程成本就越高昂,特别是模拟电路、I/O 等愈来愈难以随着制程技术缩小,而且很多工艺压根就和数字电路部分不兼容。因此对设计和制造都提出的巨大的挑战。

在这种情况下,Chiplet概念应运而生,Chiplet走向了和传统的片上系统SoC完全不同的道路,类似于搭建乐高积木,通过一组小芯片混搭成“类乐高”的组件。它通过将SoC分成较小的裸片(Die),再将这些模块化的小芯片(裸片)互联起来,采用新型封装技术,将不同功能不同工艺制造的小芯片封装在一起,成为一个异构集成芯片。

前文提到的AMD的Zen2中用7nm工艺制造核心CCX模块,用12nm制造I/O 部分,然后集成到一起成为一个CCD模块,就是最典型的案例。


在Chiplet还没有概念的年代,Marvell 的提出的Mochi 方案就是要以一种的新内连技术——Mochi实现SoC的功能,降低研发与生产成本,并且可以加快上市时间。MoChi互连芯片是基于运行速度高达8Gbps甚至更快的ARM AXI链路,它可以保持很低的芯片到芯片时延。MoChi链路可以将多个芯片以菊花链的形式连在一起,并且可以实现紧凑型串行/解串器(micro-serdes)和低电压差分信号。

这个MoChi方案核心就是利用一个高速低延迟的内部高速SerDes接口快速的把现有的Die根据需求用TSV技术封装在一起。


这个天才般的想法是ISSCC 2015会议上由Marvell 首席执行官Dr. Sehat Sutardja 最早提出来的。

他是个印尼华人还有个中文名叫周秀文。

只可惜当时想法虽好,但是业界一直没有标准总线接口,这个周秀文这个想法并没有得到很好的应用和落地。

随着苹果,英伟达,以及AMD公司使用自家总线标准搞各种互连直连,以及台积电以及日月光等制造公司在物理层面怎么用先进封装把这一套技术玩熟之后。Chiplet,异构架系统集成的新世界大门终于打开了!

今天UCIe技术标准落地,成为了未来工业标准互连,它可以提供高带宽、低延迟、高功率和高成本效益的芯片封装连接方案。UCIe 1.0标准定义了芯片间I/O物理层、芯片间协议、软件堆栈等,基本共用了PCle和CXL这两个协议的部分技术标准,可以说UCle就是CXL和PCle的衍生。

可惜Mochi 方案当年就是缺这么一个互连的总线标准!Marvell 真的很可惜!

不过上文提到的什么CXL,UCLe标准落地,还是标志着后摩尔时代的来临!当年周秀文的设想正在一步步实现。


(八)后摩尔时代下中国的领头羊

周秀文有个非常厉害的妻子,叫戴伟立,两夫妻共同创业成立了一家半导体领域响当当的公司——Marvell,中文名叫美满电子。

因为Marvell上市当天股价上涨278%,作为公司创始人,戴伟立女士一夜之间在财富榜上排名超过了篮球之神乔丹,于是就有媒体给戴伟立女士按了一个肯尼迪坐敞篷车——脑洞大开的外号,叫“使乔丹甘拜下风的女人“的中二称号……

更厉害的是,戴伟立女士有两个哥哥,戴伟民先生和戴伟进先生,也是中国芯片领域最牛逼的人物。

戴家三兄妹绝对是中国芯片界中的最牛逼最传奇的一家人!

1995年至今,三兄妹共创办了6家芯片公司,其中2家已经上市,3家被收购。二哥戴伟进曾经两度创业,分别是硅谷远景公司(Silicon Perspective)以及GPU IP企业图芯芯片技术公司,大哥戴伟民也曾经创办Ultima。

其中两家上市公司除了Marvell,还有一家就是大哥戴伟民和二哥戴伟进的回国创办的芯原微电子,一家成立于2001年8月,走过近二十载春秋于2020年上市的科创板公司,芯原股份(688521),原名思略微电子。

中国最具科创价值的科创板公司!

芯原微是全球第七大芯片IP授权企业,也被称为“中国芯片IP第一股”,“中国的ARM”,其实我觉得以芯原的产业链重要性,以及戴家兄弟的水平冠以“中国IC设计基石”都没啥问题,只可惜的二级市场能正确认知芯原真正价值的寥寥无几,诺安基金的蔡总算一个,洒家算一个,其他的估计也没剩几个,(看懂的记得留言)。

芯片IP到底是什么?

全球芯片产业目前已经基本形成了芯片设计、芯片制造、封装测试三大核心环节。

其中在三大核心产业链之上是支撑产业链,其中芯片制造和封装的支撑产业链是半导体设备以及材料与耗材。对于芯片设计公司而言,它的支撑产业链则是EDA工具和IP。

如果把芯片比作一座大厦的建设过程,芯片设计的负责的内容就是出整个大厦的设计图纸,EDA软件就是绘制这张图纸的操作工具,只不过相比于建筑设计,芯片设计的复杂度要出好几个数量级,毕竟现在芯片已经到了上百亿个晶体管的集成水平。

在集成电路设计的远古时代,当时芯片结构简单,就几个二极管,三极管堆一起,IC设计师可通过手动作图满足设计要求。随着芯片功能越来越多,性能越来越强,单位面积内集成的晶体管数量以几何数量级上升,手工作图不可能满足这巨大的工作量,于是EDA自动化工具诞生,且随着摩尔定律而不断高速发展。通过数十年的竞争和商业并购后,目前还剩下Cadence,Synopsys,Mentor三大EDA巨头,目前EDA工具也是中国芯片一大短板之一。

上世纪70年代可编程逻辑技术出现,开发人员开始了将设计流程自动化的尝试,硬件描述语言VHDL与Verilog随之产生,开发人员使用硬件描述语言完成对设计逻辑的描述后将代码输入电子设计自动化软件中即可自动生成电路图,EDA软件开始大规模使用并商业化。

芯片的设计涉及功能、算法、协议等等。利用EDA软件工具,IC设计工程师们能够实现从功能模块拆解、电路设计、性能分析到输出IC版图的整个过程。一颗芯片上有数亿到百亿以上的晶体管,设计的过程要持续模拟和验证,有了EDA软件,芯片设计工作的效率可以大大提高。同时,EDA软件工具在芯片制造和封测环节也有应用,从掩膜板制造,PDK工具,后端设计验证,到各种fab厂各种TCAD工具均属于EDA范围。

除了EDA之外, IP也是IC设计公司离不开的东西。

IP核是芯片上具有较为独立的功能模块的成熟设计,可编辑,可复用,IC设计环节通常会评估整体设计成本来进行IP的外采。IP核的模式进一步提高了IC设计过程的整体效率。市场上各种类型的芯片产品均是由大量晶体管构成,并且具备功能分区,从而实现复杂的功能,处理不同的任务。

广义上来说,按照不同层次的授权等级,可把芯片IP分类为指令集、IP核、芯片架构等。如果说指令集是一本“字典”,那么IP核提供了“段落”的写作方式,芯片架构则可被视作是“整篇文章的提纲”。

随着集成电路功能复杂化与产品推新周期缩短的趋势显现,半导体领域出现独立IP厂商,独立IP厂商为芯片设计企业直接提供经过验证的IP模块库,设计企业的开发者无需从头设计,而是直接调用特定功能模块,经过调整后便可实现所需功能,芯片设计企业可将其余人力物力倾斜于产品定义、系统架构、市场营销等环节。

芯片IP企业作为芯片设计企业的上游供应商,通常以授权的方式,向后者收取专利费用。而芯片设计企业通过购买不同层级的IP授权,可以设计出不同自研程度的芯片。

IP为什么这么重要?

很多芯片设计公司都依赖IP来设计和生产一款新的SoC芯片。

SoC芯片的设计工程从某种角度而言就是寻找,验证及整合IP的过程。如果能够找到满足需求的,质量可靠的,验证过的IP会极大缩短SoC的开发周期,这个模式在过去几十年间已经证明非常成熟可靠。

换言之,现在设计一款SoC芯片其实就是在定义好芯片需求和功能后,把各种需要用的,更好用的IP整合到一起的过程。

随着芯片复杂度的提高,定制化需求越来越多,IP产品也有自己的开发和生命周期。是否能够在上市时间和定制化方面更好的满足客户需求,也成为IP供应商和用户越来越关心的事情。

SoC对IP的应用模式随着市场需求,芯片复杂度,上市时间和成本的压力一直在发生变化,当然这也间接导致了行业内IP的生态发生相应的变化。从SoC视角看,对IP的使用可以简单的分为三种情况

1、只为这一个芯片定制的IP,通常发生在公司内部单项目上。

2、IP的选择来自于IP平台,成熟的固化 IP。有些企业内部有自己的IP平台,同时也会选择第三方IP平台的产品。这类IP的开发就是为了被大量的用户重复使用以降低成本,比如开发一款MCU,你可以选择ARM的Cortex-M0/M3系列,这类MCU IP已经被反复使用,出货量高达数十亿颗,这被证明是相当成熟可靠的。

3、IP的选择来自于IP平台,但在SoC 规格选型阶段就一起规划IP 开发,为满足用户的计划清单,其研发周期几乎与SoC同步,所以IP公司和设计公司其实是深度绑定的关系,互相成就。

对IP的选择除了质量因素,功能因素,价格也是重要的考量。随着用户数越多,这个价格会被分摊掉,相对容易承受,对于IP公司而言,也有降价占市场的动力。比如上文提到的ARM Cortex-M0/M3系列,已经取消了IP授权费用,每片wafer仅抽几美金的版税,平均下来一片芯片只有几美分的版权费,但这依然让ARM赚的盆满钵满。

戴伟民董事长曾在一次采访中形象的描述芯原的定位:“在我们的平台上,我提供IP,提供服务,(芯片设计)企业就不要养这么多人。我们是芯片界的药明康德。药明康德不做药,但是做新药的公司一定要依靠它的平台,因为不需要每研发一次新药都去重复搞那些基础的东西。”

戴总其实就是把IP比做成芯片设计的非常基础的可以重复利用的东西。

但是其实戴总只说了一半。药明康德本质只是代工一款生物药而已,但其知识产权并不属于药明康德,而是属于原药研发团队;但是芯原的平台上,谁都可以交授权费使用芯原的各种IP,但是IP始终是属于芯原的,这和药明康德有本质上的区别。

换言之,芯原的IP可以重复卖给很多人,在覆盖研发成本之后做到毛利率等于净利率!

同时IP越多,就像超市货架一样,选择也越多。对于芯片设计公司而言,足够多足够好的IP库大大方便了芯片设计的效率以及提供更多的功能性,这是一种良性的循环,更多人使用自家的IP,就能不断完善自己IP库,保持竞争力。

目前芯原微除了X86构架的IP,以及eFlash之外,其他诸如数模混合及射频等 IP ,RISC-V,DSP,均处于先进水平, 其中公司的图形处理器 IP、数字信号处理器 IP 分别排名全球前三,视频处理器 IP全球领先。

对于芯原而言,IP的数量和质量就是其护城河,虽然目前排名为全球第七,但是只要日后只要越多人用芯原的IP,芯原的收入越多,就有更多的钱投入研发新的IP,而IP库也变得更好更丰富,这几乎是一个正向循环,且增长永无止境。

特别是芯原在FD-SOI,以及RISC-V上的布局,会有一天让世人看到什么叫金光闪闪的价值!


IP芯片化之路

按照未来芯片设计发展路径,在后摩尔定律的Chiplet时代,IP不需要再费劲整合到一个个SoC里面,完全可以做到用最适合的工艺直接生产出来,然后再用封装技术整合到一起。以Chiplet实现特殊功能IP的“即插即用”,解决7nm、5nm及以下工艺中,性能与成本的平衡,并降低较大规模芯片的设计时间和风险,从SoC中的IP到SiP中以Chiplet形式呈现的IP。

这就是戴总口中经常说的“IP芯片化”。

现在UCLe的行业技术标准已经确定,最后一公里难关已经打通,此前还要考虑做出来怎么在不同的芯粒的数据互联互通的问题,现在交给UCle就行了(Marvell周秀文一声长叹),芯原只需要根据UCle的协议要求,推出各类接口IP,IC设计公司在设计一款新的SoC中,只需要整合加入芯原的接口IP即可,最终实现die-to-die的直连。

戴总此前举例:采用Chiplet架构所设计和推出的高端应用处理器平台,从定义到流片仅用了12个月的时间,2021年5月工程样片已回片并在当天被顺利点亮,Linux/Chromium操作系统、YouTube等应用在工程样片上已顺利运行,基于该样片的Chromebook 样机也已经在各大活动中成功展示并吸引了大量关注。这个高端应用处理器平台还集成了芯原的很多IP,包括芯原的神经网络处理器NPU、图像信号处理器ISP、视频处理器、音频数字信号处理器和显示控制器等。

对于芯原而言,业内通行的标准互联总线之后,其实对IP公司而言是巨大的利好,因为自己的IP库的价值更大了。芯片设计人员就像去超市买菜一样,想要什么,就拿什么,然后确定好方案,就可以让芯原进行一站式流片服务,直接把芯片生产出来拿来卖之前二级市场炒的火热的什么预制菜概念,按照这个逻辑芯原就是芯片设计预制菜的No.1!

最关键的是,芯原这个业务模式能帮助各个芯片设计初创公司定制一款天使轮估值高达20亿的PPT融资方案,叫一声“中国芯片设计基石不过分吧。

因为有了UCle总线,一切都有了标准,有了标准过去很多难题都迎刃而解,die-to-die的直连成为可能。UCIe的发布打通了Chiplet未来发展障碍,对于推动Chiplet有历史性的意义。芯原可以基于自身先进的芯片设计能力,致力于“IP芯片化”“芯片平台化”的发展。

这就是后摩尔时代的新时代下,未来芯片设计的景象。

芯原则成为这个生态圈最底层的存在,所有IC设计公司都将站在芯原打好的地基上眺望诗和远方。


中国的芯路

传统摩尔定律确实已经走到尽头,但是后摩尔时代才刚刚开始。在追求更高集成度、更高性能、更多功能、更小面积、更低功耗的路上永无止境,这也是人类科技在信息时代不断进步的基石。

在这条通往远方的芯路上,中国有自己独特的产业链定位,即下游应用主动权在中国,各种丰富的需求对芯片设计提出更高的要求,即快速响应,特色定制,成本可控。有了UCle的互联总线,芯片设计就可以灵活响应市场提出的高性能,多功能,以及低成本三个要求。

洒家总结总结至少对比传统SoC设计方案,用chiplet思路能减少三分之二的设计用时,三分之一的制造成本,且保持性能和功能性符合客户需求。

尽管UCle标准并非中国公司制定,但是英特尔已经把蛋糕放在桌子上,就看各位怎么利用,至少对芯原来讲有了更广阔的发挥平台。


结语

全文到这里,希望各位看官基本能理解对于芯片而言,内部与外部的信号互联的“芯路”有多重要。摩尔定律背后是芯片不断提高集成度,从而不断提高性能,缩小体积,降低功耗,以及扩展更多的功能,这些都离不开芯片构架的更新,离不开更好的总线技术,离不开制造工艺的进步,更重要的是IP公司有了更大的勇武之地,芯片设计公司才能很好对应市场端不断变化的新需求。

集成电路领域能有今天令人叹为观止的成果,是过去几十年全球分工协作,共同努力的结果。但是近年来夹杂太多政治因素后,整个行业的基础信任被切割的支离破碎,逼迫各国必须建立一套自己的体系,中美之间,日韩之间,都在建立本国的整套产业体系。

进入后摩尔时代,芯片设计领域和过去有很大的变化,面对多样性,灵活性以及成本控制的挑战,Chiplet+先进封装软硬结合的道路成为未来的关键。更多的IP库,能让芯片设计人员能够保持灵活性以及高效应对市场端的诉求,UCle总线为异构架芯片的集成提供了信号高速互联的基础,而3D 堆叠封装则赋予异构架的肉体。

当然在这条路上,中国也有自己的方案。2021年5月,中国计算机互连技术联盟(CCITA)在中电标协立项了chiplet标准,即《小芯片接口总线技术要求》,由中科院计算所、工信部电子四院和国内多个芯片厂商合作展开标准制定工作。

中国留有后手,万一遇到麻烦,也能有Plan B的方案。

而在这条通往远方后摩尔时代的“芯”路上,中国也有燎“原”的火种!


作者有话说

老实说,以我的专业水平(作者文科生,非半导体科班毕业),是很难驾驭这么宏大的历史进程和技术细节,只能是边看边学,所以笔者水平有限,如其中有错误,望各位大佬多指正,不甚感激。

去年12月底,笔者有幸与戴总面对面畅谈两小时,学习到了很多宝贵的知识和经验,从张江出来的路上开始构思整篇文章,随后一边工作一边学习一边码字,前后花了足足三个多月时间。因为一开始就立了flag,所以中间被人催稿无数次……搞的我头皮发麻,最终还是硬着头皮写完了这34000多字,原计划是3月初完成,结果硬是又多用了一个月时间,和久等的人说声抱歉。

写作过程中,本着不懂就问,按打破砂锅问到底的风格,期间骚扰了无数行业大佬,搞的人家以为我要去开发芯片了……,纷纷投来好奇的目光,得知我是要学习芯片知识写篇大文的时候表示,你丫的要不要这么卷,你们投资人都这么精通了,我们以后还怎么融资???

网上搜过太多的资料,已经完全记不清了,所以结尾不能把所有的参考资料列明,万分抱歉。

——by 猛练自然强 2022.3.27


参考资料:

知乎大佬夏晶晶:谈一下UCle,聊一聊CXL等;

SIP多样化应用于先进封装发展趋势;

英特尔:2021-2025展望;

一文看尽英特尔50年发展历史;

PC 处理器 50年发展历史;

显卡发展风云历史;

台积电工艺开发历史;

制程之争,台积电是如何一步步崛起;

AMD:回顾Zen构架开发历史;

UCLe,下一个芯片发展风口——chiplet;

多Die封装:chiplet研究报告;

绕开先进制程封锁,中国小芯粒标准草案即将公示;

万字总结CPU构架;

颠覆SoC构架, Marvell Mochi模块化芯片设计;

AMD 7nm Zen2 构架解析;

芯片设计挑战重重,如何解决IP重用与集成难题?

硅仙人,Jim Keller的芯片研发之道;

超详细解读先进封装;

浅谈先进晶体管技术;

PCLe 体系结构简介;

2022年全球半导体行业发展10大技术趋势;

芯片是怎么设计的?;

对话戴伟民:从IP芯片化到芯片平台化;

苏丰姿,AMD历史上首个女性CEO;

格罗方德近年发展历程梳理;

台积电官网资料;

AMD官网资料;

英伟达官网资料;

英特尔官网资料;

格罗方德官网资料;

芯原微官网资料;

……







编辑于 2023-03-17 14:26・IP 属地未知


【转】后摩尔时代的“芯”路,中国的燎“原”之火的评论 (共 条)

分享到微博请遵守国家法律