【知乎】英伟达或将推出针对中国区的最新改良版 AI 芯片，哪些信息值得关注？

2023-11-10 03:14 作者:失传技术 0人读过 | 我要投稿

英伟达或将推出针对中国区的最新改良版 AI 芯片，哪些信息值得关注？

Morris.Zhang

EECS / AI-DL / DSA和逻辑半导体从业者

TSMC <南科Fab18A、台中Fab15B和台中先进封装5厂> 的Cleanroom里面，此前降规生产的几批naked die，还未来得及切割、未来得及镀上金属线和电极、未来得及封装成H800/L40S；那么后道再重修几步点断工序，可以封装成H20/L20...，生成新的SKUs；在晶圆制造行业算是老手艺的。

这些特供/降规生产的H20 / L20等型号，可以判断是H800和L40S的裸die的后道物理点断工序的产物，重新封装、重新修改固件。因为这几个降规阉割型号的发布时间太快，不可能是重做掩膜、重新投片的产物，那么通过后道的物理点断失效处理+再封装，进而推出新的SKUs就是合理答案了。

半导体制造的BEOL工序，可以在无需重做Mask的前提下使用一些管/线修补工艺：表面激光点断、CoWoS层面切割，甚至隧道镜下手工重新雕线。

A - 表面激光点断：

通常情况，一颗Digital Logic芯片的cache size、PHY channels是可以通过后道ATM环节重修/点断做失效屏蔽处理的，算是几十年的传统艺能，例如早期的Pentium/Celeron处理器的重要区别之一就是点断cache；

H20对应的H100/800系列是Hopper架构（HBM3e、有CoWoS、NVLink）
L20对应的L40S系列是Ada Lovelace架构（GDDR6，无CoWoS，PCIe）
P.S：以及Firmware修改；

H100/H800之间比较关键的SerDes PHY的区别，是可以局部物理点断失效的；而相比之下，H20割掉的dark Si面积较大，常规的手工点断可能不值得，应该是重新做Layout，

但是除了SerDes PHY的区别，还有FP64单元面积、Tensor core单元面积的区别，这部分不好定论，但可以推测是类似物理屏蔽冗余设计的操作，毕竟如今的设计方法学都是模块化的，BEOL环节就是die测试后的70分与90分区别，以及GPU芯片上不止一个FP64，局部物理点断失效是合理的，即使是重新Layout；

激光点断工序，倘若是局部微小部分，曾经可以手工完成（相当于微雕）；面积稍大的部分，可以重新Layout预留点断位置，再由机器完成点断失效。通常的Fab都会配置专业设备，由激光直接在die上切割线路/沟槽；或者如Chandler AZ的Intel Fab42工厂里，还有直接在专用隧道镜下面手工雕刻晶体管的设备，宣称是原子尺度的，不同于寻常的扫描隧道显微镜（STM）；几年前Intel有个宣传视频，提到这台设备，全球持证的操作手不超过14人。其实在28nm平面晶体管以前，显微镜手雕不算是高难度动作，进入FinFet以后，由于垂直方向的3D栅极结构，手雕设备的代价和操作员就变得遥不可及了。

举个例子：
A、如今市面仍可见的Intel K系列CPU，就是点断显核的70分die；
B、Apple Si的前两代，官宣8核NPU，实际有9个，就是设计冗余；

以上这些，在晶圆制造工序中也算是基准操作，特别是中试厂/线，Alpha - Beta流片的过渡期间，有小错就会直接手改，不会返回修改Mask重新流片的。

芯片设计者的角度，本质就是Layout设计的冗余度；因为FEOL光刻过程是强调高良率的，具体到失效晶体管数，测试环节判断模块级别的良率，坏点可以直接电路割断，后续引线、封盖工艺流程都不变。就如同3年前的例子：Intel那批不带显核的K系列CPU的笑谈，内部实情是显核测试不及格的废片，通过物理点断，导线和引脚照旧，重新封装销售；然而未想到的是，割掉的显核插电以后不受控制，偶尔耗电巨大，经用户投诉，建环境验证实锤，坊传最后每颗CPU赔付1美元。这个故事反映的情况就是我们上文所讲的，同一条流水线，经过点断失效的芯片，后续的导线/引脚和封装过程不变，可以继续销售。尤其早期Intel 10nm的良率很低，积压很多这样的半废片，才会把显核失效的芯片打上K标继续销售（但是Intel K的例子也告诉我们，即使是点断失效的电路，也需要做测试）。

如今这个“冗余度”可能有很大空间，毕竟H100已然是814mm2的大die，几乎接近reticle尺寸边缘了。而如今发布的H20降规型号，确认是六分之一的性能，但是成本相同，可以想象就相当于是不打麻药的生阉了：）

正常情况下，物理点断失效的电路是不能从外部第三方察觉的，如今芯片是10几层metal，die表面修改了，上面金属层是看不穿的；当然除非是用到反工程的“CT扫描”（湖南某高校的绝艺：）。

B - CoWoS层面点断：

除了在Logic die层面的激光点断工艺之外，针对某些特殊层面的点断要求，其实在CoWoS的Interposer层次做差异化，反而更经济，也更容易保证良率；比如屏蔽PHY Channels性能、比如缩减HBM3e和GDDR6性能，在硅链接层修改差异化容易，在die上修改就得不偿失了。以及，Interposer层又不用几纳米精度电路，55nm大概足够满足了（就是最上面那层metal的线宽）。

但是，CoWoS Interposer上面可以屏蔽PHY和RAM，但是无法屏蔽FP64单元、Tensor core单元这样的计算logic面积；这就需要补充用到前文所说的点断失效方法，die表面毕竟是硬件开关电路。（玩笑：再不济，表面都是PN极开关，估计点个屏蔽涂层就绝缘了）。

BTW：听到前学长谈过一个反工程概念，即把CoWoS掰开，换一层自定义的...

综上，我们看到进一步特供/降规生产的H20/L20等型号，可以判断是H800和L40S的裸die的后道物理点断工序的产物，同时重新封装、重新修改Firmware。因为这几个降规阉割型号发布的时间太快，不可能是重做掩膜、重新投片的产物，那么后道做物理点断失效处理+再封装，进而推出新的SKUs就是答案了。回想Nvidia之前积压的50亿美元的GPU未能交付（可能都没切），如今返厂做后道加工才导致如此快速的发布阉割型号，那么国内厂商50亿美元的订单大概还是会让Nvidia赚走。

C - 对于Nvidia营收的影响：

来自三方的数据：在中国区，用来作为AI加速器的GPU芯片仅占总营收的小于10%（中国区占比全球营收小于30%，多数为消费级产品的贡献）。

两组数据：
Nvidia 2023财年在中国（含香港）收入57.85亿美元，2022财年为71.11亿美元，同比减少13.26亿美元。
Nvidia 2023财年在中国台湾地区收入69.86亿美元，2022财年为85.44亿美元，同比减少15.58亿美元。

当前BIS新规下，一方面引进Nvidia芯片受到限制，二方面国内AI芯片企业面临海外流片限制。因此国产芯片替代变得更重要，如今有华为昇腾910B（原生适配Pytorch2.1）、寒武纪、燧原、海光等等公司均已发布适用于AI大模型训推的硬件加速产品；加之国内晶圆代工厂的7nm产能扩充（今年新购ASML 2050/2100 DUV以及据传2024年预定的45台NXT 1980Di），未来AI加速器行业的国产替代空间可期。

引申阅读：Morris.Zhang - 美政府拟阻止英伟达等出口高性能 AI 芯片，有何影响？

美政府拟阻止英伟达等出口高性能 AI 芯片，英伟达、AMD 股价大跌，国内厂商称已提前囤货，有何影响？188 赞同 · 43 评论回答

编辑于 2023-11-09 23:43

标签：

【知乎】英伟达或将推出针对中国区的最新改良版 AI 芯片，哪些信息值得关注？

A - 表面激光点断：

B - CoWoS层面点断：

C - 对于Nvidia营收的影响：