欢迎光临散文网 会员登陆 & 注册

【知乎】 英伟达或将推出针对中国区的最新改良版 AI 芯片,哪些信息值得关注?

2023-11-10 03:14 作者:失传技术  | 我要投稿

 英伟达或将推出针对中国区的最新改良版 AI 芯片,哪些信息值得关注?


Morris.Zhang


EECS / AI-DL / DSA和逻辑半导体从业者


TSMC <南科Fab18A、台中Fab15B和台中先进封装5厂> 的Cleanroom里面,此前降规生产的几批naked die,还未来得及切割、未来得及镀上金属线和电极、未来得及封装成H800/L40S;那么后道再重修几步点断工序,可以封装成H20/L20...,生成新的SKUs;在晶圆制造行业算是老手艺的。

这些特供/降规生产的H20 / L20等型号,可以判断是H800和L40S的裸die的后道物理点断工序的产物,重新封装、重新修改固件。因为这几个降规阉割型号的发布时间太快,不可能是重做掩膜、重新投片的产物,那么通过后道的物理点断失效处理+再封装,进而推出新的SKUs就是合理答案了。

半导体制造的BEOL工序,可以在无需重做Mask的前提下使用一些管/线修补工艺:表面激光点断、CoWoS层面切割,甚至隧道镜下手工重新雕线。

A - 表面激光点断:

通常情况,一颗Digital Logic芯片的cache size、PHY channels是可以通过后道ATM环节重修/点断做失效屏蔽处理的,算是几十年的传统艺能,例如早期的Pentium/Celeron处理器的重要区别之一就是点断cache;

H20对应的H100/800系列是Hopper架构(HBM3e、有CoWoS、NVLink)
L20对应的L40S系列是Ada Lovelace架构(GDDR6,无CoWoS,PCIe)
P.S:以及Firmware修改;

H100/H800之间比较关键的SerDes PHY的区别,是可以局部物理点断失效的;而相比之下,H20割掉的dark Si面积较大,常规的手工点断可能不值得,应该是重新做Layout,

但是除了SerDes PHY的区别,还有FP64单元面积、Tensor core单元面积的区别,这部分不好定论,但可以推测是类似物理屏蔽冗余设计的操作,毕竟如今的设计方法学都是模块化的,BEOL环节就是die测试后的70分与90分区别,以及GPU芯片上不止一个FP64,局部物理点断失效是合理的,即使是重新Layout;

激光点断工序,倘若是局部微小部分,曾经可以手工完成(相当于微雕);面积稍大的部分,可以重新Layout预留点断位置,再由机器完成点断失效。通常的Fab都会配置专业设备,由激光直接在die上切割线路/沟槽;或者如Chandler AZ的Intel Fab42工厂里,还有直接在专用隧道镜下面手工雕刻晶体管的设备,宣称是原子尺度的,不同于寻常的扫描隧道显微镜(STM);几年前Intel有个宣传视频,提到这台设备,全球持证的操作手不超过14人。其实在28nm平面晶体管以前,显微镜手雕不算是高难度动作,进入FinFet以后,由于垂直方向的3D栅极结构,手雕设备的代价和操作员就变得遥不可及了。

举个例子:
A、如今市面仍可见的Intel K系列CPU,就是点断显核的70分die;
B、Apple Si的前两代,官宣8核NPU,实际有9个,就是设计冗余;

以上这些,在晶圆制造工序中也算是基准操作,特别是中试厂/线,Alpha - Beta流片的过渡期间,有小错就会直接手改,不会返回修改Mask重新流片的。

芯片设计者的角度,本质就是Layout设计的冗余度;因为FEOL光刻过程是强调高良率的,具体到失效晶体管数,测试环节判断模块级别的良率,坏点可以直接电路割断,后续引线、封盖工艺流程都不变。就如同3年前的例子:Intel那批不带显核的K系列CPU的笑谈,内部实情是显核测试不及格的废片,通过物理点断,导线和引脚照旧,重新封装销售;然而未想到的是,割掉的显核插电以后不受控制,偶尔耗电巨大,经用户投诉,建环境验证实锤,坊传最后每颗CPU赔付1美元。这个故事反映的情况就是我们上文所讲的,同一条流水线,经过点断失效的芯片,后续的导线/引脚和封装过程不变,可以继续销售。尤其早期Intel 10nm的良率很低,积压很多这样的半废片,才会把显核失效的芯片打上K标继续销售(但是Intel K的例子也告诉我们,即使是点断失效的电路,也需要做测试)。

如今这个“冗余度”可能有很大空间,毕竟H100已然是814mm2的大die,几乎接近reticle尺寸边缘了。而如今发布的H20降规型号,确认是六分之一的性能,但是成本相同,可以想象就相当于是不打麻药的生阉了:)

正常情况下,物理点断失效的电路是不能从外部第三方察觉的,如今芯片是10几层metal,die表面修改了,上面金属层是看不穿的;当然除非是用到反工程的“CT扫描”(湖南某高校的绝艺:)。


B - CoWoS层面点断:

除了在Logic die层面的激光点断工艺之外,针对某些特殊层面的点断要求,其实在CoWoS的Interposer层次做差异化,反而更经济,也更容易保证良率;比如屏蔽PHY Channels性能、比如缩减HBM3e和GDDR6性能,在硅链接层修改差异化容易,在die上修改就得不偿失了。以及,Interposer层又不用几纳米精度电路,55nm大概足够满足了(就是最上面那层metal的线宽)。

但是,CoWoS Interposer上面可以屏蔽PHY和RAM,但是无法屏蔽FP64单元、Tensor core单元这样的计算logic面积;这就需要补充用到前文所说的点断失效方法,die表面毕竟是硬件开关电路。(玩笑:再不济,表面都是PN极开关,估计点个屏蔽涂层就绝缘了)。

BTW:听到前学长谈过一个反工程概念,即把CoWoS掰开,换一层自定义的...


综上,我们看到进一步特供/降规生产的H20/L20等型号,可以判断是H800和L40S的裸die的后道物理点断工序的产物,同时重新封装、重新修改Firmware。因为这几个降规阉割型号发布的时间太快,不可能是重做掩膜、重新投片的产物,那么后道做物理点断失效处理+再封装,进而推出新的SKUs就是答案了。回想Nvidia之前积压的50亿美元的GPU未能交付(可能都没切),如今返厂做后道加工才导致如此快速的发布阉割型号,那么国内厂商50亿美元的订单大概还是会让Nvidia赚走。


C - 对于Nvidia营收的影响:

来自三方的数据:在中国区,用来作为AI加速器的GPU芯片仅占总营收的小于10%(中国区占比全球营收小于30%,多数为消费级产品的贡献)。

两组数据:
Nvidia 2023财年在中国(含香港)收入57.85亿美元,2022财年为71.11亿美元,同比减少13.26亿美元。
Nvidia 2023财年在中国台湾地区收入69.86亿美元,2022财年为85.44亿美元,同比减少15.58亿美元。

当前BIS新规下,一方面引进Nvidia芯片受到限制,二方面国内AI芯片企业面临海外流片限制。因此国产芯片替代变得更重要,如今有华为昇腾910B(原生适配Pytorch2.1)、寒武纪、燧原、海光等等公司均已发布适用于AI大模型训推的硬件加速产品;加之国内晶圆代工厂的7nm产能扩充(今年新购ASML 2050/2100 DUV以及据传2024年预定的45台NXT 1980Di),未来AI加速器行业的国产替代空间可期。

引申阅读:Morris.Zhang - 美政府拟阻止英伟达等出口高性能 AI 芯片,有何影响?

美政府拟阻止英伟达等出口高性能 AI 芯片,英伟达、AMD 股价大跌,国内厂商称已提前囤货,有何影响?188 赞同 · 43 评论回答



编辑于 2023-11-09 23:43


【知乎】 英伟达或将推出针对中国区的最新改良版 AI 芯片,哪些信息值得关注?的评论 (共 条)

分享到微博请遵守国家法律