source: dylan patel,myron xie, gerald wong, ai capacity constraints - cowos and hbm supply chain, july 6, 2023
生成式人工智能已经到来,它将改变世界。自从chatgpt风靡全球,让我们对人工智能的可能性充满想象力以来,我们看到各种各样的公司都在争相训练ai模型,并将生成式人工智能应用于内部工作流程或面向客户的应用程序中。不仅是大型科技公司和初创公司,很多非科技行业的财富5000强公司也在努力寻找如何部署基于llm的解决方案。
当然,这将需要大量的gpu计算资源。gpu销售量像火箭一样飙升,供应链难以满足对gpu的需求。公司们正在争相购买gpu或云实例。
即使是openai也无法获得足够的gpu,这严重制约了其近期的路线图。由于gpu短缺,openai无法部署其多模态模型。由于gpu短缺,openai无法部署更长的序列长度模型(8k vs 32k)。
与此同时,中国公司不仅在投资部署自己的llm,还在美国出口管制进一步加强之前进行库存储备。例如,抖音背后的中国公司字节跳动据说正在向nvidia订购价值超过10亿美元的a800/h800。
虽然有许多合理的用例需要数十万个gpu用于人工智能,但也有很多情况是人们急于购买gpu,试图构建他们不确定是否有合法市场的项目。在某些情况下,大型科技公司正在努力迎头赶上openai和google,以免被抛在后头。大量风投资金涌入那些没有明确商业用例的初创公司。我们了解到有十几个企业正在尝试在自己的数据上训练自己的llm。最后,这也适用于包括沙特阿拉伯和阿联酋在内的国家,他们今年也试图购买价值数亿美元的gpu。
即使nvidia试图大幅增加产量,最高端的nvidia gpu h100也将在明年第一季度之前售罄。nvidia将逐渐提高每季度h100 gpu的发货量,达到40万枚。
今天我们将详细介绍nvidia及其竞争对手在生产方面的瓶颈以及下游容量的扩展情况。我们还将分享我们对nvidia、broadcom、google、amd、amd embedded(xilinx)、amazon、marvell、microsoft、alchip、alibaba t-head、zte sanechips、三星、micron和sk hynix等公司每个季度供应增长的估计。
nvidia的h100采用cowos-s封装,共有7个芯片组件。中心是h100 gpu asic,其芯片尺寸为814平方毫米。周围是6个hbm存储堆叠。hbm的配置因不同的sku而异,但h100 sxm版本使用hbm3,每个堆叠为16gb,总内存容量为80gb。h100 nvl将有两个封装,每个封装上有6个活动的hbm堆叠。
在只有5个活动hbm的情况下,非hbm芯片可以是虚拟硅,用于为芯片提供结构支撑。这些芯片位于硅中间层之上,该硅中间层在图片中不清晰可见。这个硅中间层位于abf封装基板上。
01. gpu芯片和tsmc制造
nvidia gpu的主要计算组件是处理器芯片本身,采用定制的tsmc工艺节点“4n”制造。它在台湾台南的tsmc fab 18工厂中制造,与tsmc n5和n4工艺节点共享设施。这不是生产的限制因素。
由于个人电脑、智能手机和非人工智能相关的数据中心芯片市场的严重疲软,tsmc的n5工艺节点利用率降至70%以下。nvidia在获取额外晶圆供应方面没有遇到问题。
事实上,nvidia已经订购了大量用于h100 gpu和nvswitch的晶圆,并在这些芯片需要出货之前立即开始生产。这些晶圆将在tsmc的晶圆库中存放,直到下游供应链有足够的能力将这些晶圆封装成成品芯片。
基本上,nvidia正在利用tsmc低利用率的情况,并在后续购买成品的路上获得一些价格优势。
芯片库,也被称为晶圆库,是半导体行业的一种做法,即将部分加工或已完成的晶圆存放,直到客户需要时再提供。与其它一些晶圆代工厂不同,tsmc会帮助客户将这些晶圆保留在自己的账面上,几乎进行完整的加工。这种做法可以使tsmc及其客户保持财务灵活性。由于这些晶圆只是部分加工,所以存放在晶圆库中的晶圆并不被视为成品,而是被归类为在制品(wip)。只有当这些晶圆完全完成时,tsmc才能确认收入并将这些晶圆的所有权转移给客户。
帮助客户调整资产负债表,使其看起来库存水平得到了控制。对于tsmc而言,好处在于可以提高利用率,从而支持利润率。然后,当客户需要更多库存时,这些晶圆可以通过几个最后的加工步骤完全完成,然后以正常销售价格甚至略有折扣交付给客户。
02. 数据中心中hbm的出现
amd的创新如何帮助了nvidia
围绕gpu的高带宽内存(hbm,high bandwidth memory)是下一个重要组件。hbm供应也有限,但正在增加。hbm是通过硅穿透孔(tsv,through silicon vias)连接的垂直堆叠dram芯片,并使用tcb(thermocompression bonding,在未来需要更高堆叠层数时将需要使用混合键合技术)进行键合。在dram芯片的下方是一个作为控制器的基础逻辑芯片。通常,现代hbm有8层存储芯片和1个基础逻辑芯片,但我们很快将看到具有12+1层hbm的产品,例如amd的mi300x和nvidia即将推出的h100升级版。
有趣的是,尽管nvidia和google是hbm的最大用户,但是amd是hbm的先驱。在2008年,amd预测,为了匹配游戏gpu性能的持续提升,需要更多的功率,这将需要从gpu逻辑中分流,从而降低gpu性能。amd与sk hynix和其它供应链中的公司(如amkor)合作,寻找一种能够在更低功耗下提供高带宽的存储解决方案。这导致了2013年由sk hynix开发的hbm技术的诞生。
sk hynix于2015年首次为amd的fiji系列游戏gpu提供了hbm技术,这些芯片由amkor进行了2.5d封装。随后,在2017年推出了vega系列,该系列采用了hbm2技术。然而,hbm对游戏gpu性能并没有带来太大改变。由于性能上没有明显的优势,再加上成本较高,amd在vega之后又转而使用了gddr技术来供应其游戏显卡。如今,nvidia和amd的顶级游戏gpu仍在使用价格更低的gddr6技术。
然而,amd的初始预测在某种程度上是正确的:内存带宽的扩展对于gpu来说确实是一个问题,尤其是对于数据中心的gpu而言。对于消费级游戏gpu,nvidia和amd已经转向使用大容量缓存来存储帧缓冲区,使它们能够使用带宽较低的gddr内存。
正如我们之前详细介绍的那样,推理和训练工作负载对内存的需求很高。随着ai模型中参数数量的指数增长,仅仅是权重的模型大小就已经达到了tb级别。因此,ai加速器的性能受到存储和检索训练和推理数据的能力的限制,这通常被称为内存壁。
为了解决这个问题,领先的数据中心gpu采用了与高带宽内存(hbm)进行共封装的方式。nvidia在2016年推出了他们的首款hbm gpu,即p100。hbm通过在传统ddr内存和芯片上缓存之间找到了一个折衷方案,通过牺牲容量来提高带宽。通过大幅增加引脚数,每个hbm堆栈可以实现1024位宽的内存总线,这是ddr5每个dimm的64位宽度的18倍。与此同时,通过大幅缩短距离,hbm的功耗得到了控制,每位传输的能量消耗显著降低(以皮焦每比特为单位)。相比于gddr和ddr的厘米级长度,hbm的传输路径只有毫米级长短。
今天,许多面向高性能计算的芯片公司正在享受amd努力的成果。讽刺的是,amd的竞争对手nvidia可能是最大的受益者,成为hbm的最大用户。
03. hbm市场:sk hynix的主导地位
三星和美光投资迎头赶上
作为hbm的先驱,sk hynix是技术路线图最为先进的领导者。sk hynix于2022年6月开始批量生产hbm3,目前是唯一的hbm3供应商,市场份额超过95%,大多数h100 sku产品都在使用。目前hbm的最大配置是8层16gb hbm3模块。sk hynix正在生产12层24gb hbm3,数据速率为5.6 gt/s,用于amd mi300x和nvidia h100的升级版本。
hbm的主要挑战在于封装和堆叠内存,而这正是sk hynix擅长的领域,他们积累了最强的工艺流程知识。在未来的文章中,我们还将详细介绍sk hynix的两项关键封装创新,它们正在逐步推进,并将取代当前hbm工艺中的一个关键设备供应商。
三星紧随其后,预计将于2023年下半年开始出货hbm3。我们相信它们设计用于nvidia和amd的gpu。目前,它们在产量上与sk hynix相比存在巨大的差距,但它们正在大举投资以追赶市场份额。三星正在努力迎头赶上,并力争成为hbm市场份额的第一。我们听说他们正在与一些加速器公司达成有利的交易,试图获得更多份额。
他们展示了他们的12层hbm以及未来的混合键合hbm。三星hbm-4技术路线图中一个有趣的方面是,他们希望将逻辑/外围电路放在内部finfet节点上。这显示了他们在拥有逻辑和dram代工厂方面的潜在优势。
美光公司目前进展最慢。美光公司在混合存储立方(hybrid memory cube,hmc)技术方面进行了更大的投资。hmc是与hbm竞争的一种技术,概念非常相似,并在同一时期发展起来。然而,hmc周围的生态系统是封闭的,这使得很难在hmc周围开发知识产权。此外,hmc存在一些技术缺陷。由于hbm的采用率更高,因此hbm成为了3d堆叠dram的行业标准。
直到2018年,美光才开始转向hbm并进行投资。这就是为什么美光进展最慢的原因。他们仍然停留在hbm2e阶段(而sk hynix在2020年中期开始大规模生产hbm2e),甚至无法成功制造顶级的hbm2e芯片。
在最近的财务电话会议中,美光对他们的hbm技术路线图发表了一些大胆的言论:他们相信他们将在2024年凭借hbm3e从落后者变为领先者。预计hbm3e将于2024年第三季度/第四季度开始供货,用于nvidia的下一代gpu。
我们的hbm3规模化生产实际上是下一代hbm3,具有比当前行业中hbm3产品性能、带宽更高、功耗更低的水平。该产品将从2024年第一季度开始规模化生产,并在2024财年带来可观的收入,2025年将大幅增长,甚至超过2024年的水平。我们的目标是在hbm领域占据非常强势的份额,超过当前行业dram的自然供应份额。
-----美光公司首席业务官sumit sadana
他们声称在hbm领域的市场份额高于他们在dram市场的份额,这是非常大胆的说法。考虑到他们仍然在高产量上无法成功制造顶级hbm2e芯片,我们很难相信美光声称他们将在2024年初发货领先的hbm3芯片,甚至成为首个发布hbm3e芯片。在我们看来,美光似乎试图改变关于他们在人工智能领域的失败者形象,尽管与英特尔/amd cpu服务器相比,nvidia gpu服务器的内存容量大大降低。
根据我们的渠道检查,sk hynix在新一代技术方面仍然保持领先地位,而三星则在大幅增加供应、提出大胆路线图并达成交易方面努力迎头赶上。
04. 真正的瓶颈是cowos技术
cowos(chip on wafer on substrate,芯片在晶圆上的衬底上)是tsmc的“2.5d”封装技术,多个活性硅芯片(通常是逻辑芯片和hbm堆叠芯片)集成在一个被动硅中间层上。中间层作为顶部活性芯片的通信层。然后,中间层和活性硅芯片与包装基板连接在一起,包装基板上含有与系统pcb连接的i/o接口。
hbm和cowos是相辅相成的。hbm的高引脚数和短迹长要求需要2.5d先进封装技术,如cowos,才能实现密集、短距离的连接,这在pcb甚至包装基板上无法实现。cowos是主流封装技术,提供最高的互连密度和最大的封装尺寸,而成本合理。由于几乎所有hbm系统目前都采用cowos封装,所有先进的人工智能加速器都使用hbm,因此可以推断,几乎所有领先的数据中心gpu都由tsmc采用cowos封装。百度在其产品中使用了三星的高级加速器。
尽管tsmc的soic等3d封装技术可以直接将芯片堆叠在逻辑芯片上,但对于hbm来说,这种做法在热管理和成本方面并不合理。soic在互连密度方面处于不同的数量级,并更适合通过芯片堆叠扩展片上缓存,正如amd的3d v-cache解决方案所示。amd的xilinx也是多年前最早使用cowos技术将多个fpga芯片集成在一起的用户。
尽管还有其它一些应用程序使用了cowos技术,如网络(其中一些被应用于网络gpu集群,如博通的jericho3-ai)、超级计算和fpga,但绝大多数cowos的需求来自于人工智能领域。与半导体供应链的其它主要终端市场不同,这些市场的疲软意味着有足够的闲置产能来满足对gpu的巨大需求,cowos和hbm已经是主要面向人工智能的技术,因此2022年第一季度已经消耗了所有的闲置产能。随着gpu需求的激增,这些供应链的部分已经无法跟上,成为了gpu供应的瓶颈。
就在最近的两天,我接到了一个客户的电话,要求大幅增加后端产能,特别是cowos方面的产能。我们正在评估这个需求。
-----tsmc首席执行官魏哲家
tsmc一直在为更多的封装需求做准备,但可能没有预料到这股生成式人工智能需求会来得如此迅速。今年6月,tsmc宣布他们在竹南开设了先进封测 6 工厂。这个工厂占地面积达14.3公顷,足够容纳每年高达100万片的3d封测产能。这不仅包括cowos,还包括soic和info技术。有趣的是,这个工厂的面积比tsmc其它封装工厂的总和还要大。尽管这只是净化室的面积,并远未完全配备充分的设备来提供如此多的产能,但很明显tsmc正在做好准备,预期会有更多对其先进封装解决方案的需求。
微观封装(wafer level fan-out)的产能有些闲置,这在主要用于智能手机soc的领域比较常见,其中的一些部分可以重新用于cowos的某些工艺步骤。特别是在沉积、电镀、背面研磨、成型、放置和rdl(重密度线路)形成等方面存在一些重叠的工艺。我们将在后续文章中详细介绍cowos的工艺流程以及所有由此带来积极需求的公司。在设备供应链中会有一些有意义的变化。
英特尔、三星和外包测试组织(如ase的foeb)还有其它的2.5d封装技术,但cowos是唯一一种被大量采用的,因为tsmc是最为主导的人工智能加速器代工厂。甚至英特尔的habana加速器也是由tsmc制造和封装。然而,一些客户正在寻求与tsmc的替代方案,下面我们将讨论这方面的内容。更多信息请参阅我们的先进封装系列。
05. cowos的变种
cowos有几个变种,但原始的cowos-s仍然是高产量生产的唯一配置。这是上面描述的经典配置:逻辑芯片和hbm芯片通过基于硅的中间层和tsv进行连接。中间层然后放置在有机封装基板上。
硅中间层的一项关键技术是“版图拼接”(reticle stitching)。由于光刻工具的缺陷扫描限制,芯片通常具有最大尺寸为26mm x 33mm。随着gpu芯片尺寸接近这一限制并需要适应周围的hbm芯片,中间层需要更大的尺寸,将超过这个版图限制。tsmc利用版图拼接技术来解决这个问题,允许他们对中间层进行多次版图拼接(目前最多可以达到3.5倍,与amd的mi300相适应)。
cowos-r采用有机基板和重新分布层(rdl),而不是硅中间层。这是一种成本较低的变种,由于使用有机rdl而不是基于硅的中间层,牺牲了i/o密度。正如我们所详细介绍的那样,amd的mi300最初是设计在cowos-r上的,但我们认为由于翘曲和热稳定性的问题,amd不得不改用cowos-s。
cowos-l预计将于今年晚些时候推出,并使用rdl中间层,但包含用于芯片间互连的主动和/或被动硅桥,嵌入在中间层内部。这是tsmc的等效产品,类似于英特尔的emib封装技术。这将允许更大的封装尺寸,因为硅中间层的规模越来越难以扩展。mi300 cowos-s可能已接近单个硅中间层的限制。
对于更大的设计来说,采用cowos-l将更具经济性。tsmc正在研发一个6倍版图尺寸的cowos-l超级载体中间层。对于cowos-s,他们并未提及超过4倍版图的内容。这是因为硅中间层的脆弱性。这种硅中间层只有100微米厚,当中间层在工艺流程中扩展到更大尺寸时,有可能出现剥离或开裂的风险。
3225贴片晶振在汽车电子领域的应用
现在ArXiv最火的深度学习框架到底是什么?
赛灵思FPGA上电配置流程的8个步骤
iphone8什么时候上市?iphone8即将发布:iphone8新功能汇总,哪一项功能最值得期待?
了解传感器性能与算法之间的相互作用
AI计算能力限制:CoWoS和HBM供应链的挑战
加密数字货币将是进行匿名支付行为的最佳选择之一
中国距离成为全球最大平板显示生产地的时间不再遥远,就定于2019年
板对板连接器选型指南
如何从编程的角度最大限度地实现铣刀式分板机设计
WMS是什么?
设计一个1位的二选一多路选择器及其VHDL描述
简易晶振测试
海南商业航天发射场一号发射工位今日竣工
数字集群PH790对讲机功能介绍
苹果两天市值蒸发1900亿美元
莱迪思半导体荣获华为合作伙伴和供应商奖项
稳压器温度过高会怎么样
数字语音室的考试
卤素、非卤素和mPPE绝缘材料的优势