支持Chiplet的底层封装技术

chiplet 概述
过去几十年来，半导体行业一直按照摩尔定律的规律发展，凭借着芯片制造工艺的迭代，使得每18个月芯片性能提升一倍。但是当工艺演进到5nm，3nm节点，提升晶体管密度越来越难，同时由于集成度过高，功耗密度越来越大，供电和散热也面临着巨大的挑战。chiplet(芯粒)技术是soc集成发展到当今时代，摩尔定律逐渐放缓情况下，持续提高集成度和芯片算力的重要途径。工业界近期已经有多个基于chiplet的产品面市，intel甚至发布了集成47颗芯片的ponte vecchio系列，chiplet技术已经是芯片厂商比较依赖的技术手段了。
相比传统monolithic芯片技术，chiplet技术背景下，可以将大型单片芯片划分为多个相同或者不同的小芯片，这些小芯片可以使用相同或者不同的工艺节点制造，再通过跨芯片互联和封装技术进行封装级别集成，降低成本的同时获得更高的集成度。通常来说，由于光刻掩膜版的尺寸限定在33mm * 26mm，单个芯片的面积一般不超过800mm^2，通过多个芯片的片间集成，可以在封装层面突破单芯片上限，进一步提高集成度。而且从工艺制造良率的bose-einstein模型：
其中a代表芯片面积，d0代表缺陷密度，n代表掩膜版层数相关系数。单芯片的面积越大，良率越低，对应制造成本也越高。同时，在当前主流芯片架构中，信号处理部分通常为数字逻辑，随着工艺演进相同功能情况下面积也会进一步缩小，但是各类接口部分通常为模拟电路，随着工艺演进相同功能情况下面积几乎不会缩小，因此合理地将不用功能有效划分到不同工艺节点的芯片上，可以更高效利用现有制造工艺，有效降低成本。
chiplet技术带来上述高集成度和低成本等优势的同时，也面临着诸多技术挑战，总体来说可以概括为：物理上如何拼接多个芯片;设计上如何将大芯片划分为多个小芯片;以及如何标准化接口协议做到不同芯片产品标准化拼接。具体来说可以分为几个不同的方面：
超高速、超高密度和超低延时的封装技术，用来解决chiplet之间远低于单芯片内部的布线密度、高速可靠的信号传输带宽和超低延时的信号交互。目前主流的封装技术包括但不限于mcm、cowos、emib等。
基于chiplet的架构设计，一方面考虑不同chiplets之间如何进行功能划分和架构定义，另一方面考虑多个chiplets如何进行有效互联和扩展，实现高效灵活可扩展的架构，避免多chiplets之间出现信号死锁、流量拥塞等功能和性能问题。
标准化的多chiplets之间交互的通信互联协议，用于指导和约束不同芯片的接口设计和标准化对接。目前由intel、amd、arm、ase、google、 meta、microsoft、qualcomm、samsung和tsmc共同开发和制定的ucie(universal chiplet interconnect express)已经发布第一版标准。
由于篇幅限制，本文基于上述三个方面，简单介绍下当前业界主流实现方式，探讨不同解决方法的优缺点和设计考量，后续会附上各个部分的详细介绍。
支持chiplet的底层封装技术
封装技术目前主要由tsmc、ase、intel等公司来主导，包含从2d mcm到2.5d cowos、emib和3d hybrid bonding。本文主要介绍目前工业界主流的2d和2.5d封装技术和其优缺点。
1. mcm(multi-chip module)
multi-chip module
mcm一般是指通过substrate(封装基板)走线将多个芯片互联的技术。通常来说走线的距离和范围可以在10mm~25mm，线距线宽大约10mm量级，单条走线带宽大约10gbit/s量级。由于mcm可以通过基板直接连接各个芯片，通常封装的成本会相对较低，但是由于走线的线距线宽比较大，封装密度相对较低，接口速率相对较低，延时相对较大。
2. cowos(chip-on-wafer-on-substrate)
cowos是tsmc主导的，基于interposer(中间介质层)实现的2.5d封装技术，其中interposer采用成熟制程的芯片制造工艺，可以提供相比mcm更高密度和更大速率的接口。目前tsmc主流的cowos技术包括：
cowos-s：基础cowos技术，可以支持超高集成密度，提供不超过两倍掩膜版尺寸的interposer层，通常用于集成hbm等高速高带宽内存芯片。
cowos
cowos-r：基于前述cowos-s技术，引入info技术中的rdl(redistribution layer)，rdl 中介层由聚合物和铜迹线组成，具有相对机械柔韧性，而这种灵活性增强了封装连接的可靠性，并允许新封装可以扩大其尺寸以满足更复杂的功能需求，从而有效支持多个chiplets之间进行高速可靠互联。
cowos-r
cowos-l：在上述cowos-s和info技术的基础上，引入lsi(local silicon interconnect)技术，lsi 芯片在每个产品中可以具有多种连接架构(例如 soc 到 soc、soc 到小芯片、soc 到 hbm 等)，也可以重复用于多个产品，提供更灵活和可复用的多芯片互联架构。
cowos-l
相比于mcm，cowos技术可以提供更高的互联带宽和更低的互联延时，从而获得更高的性能。同时，受限于interposer的尺寸(通常为2倍掩膜版最大尺寸)，可以提供的封装密度上限相对比较有限，并且由于interposer的引入，需要付出额外的制造成本和更高的技术复杂度，以及随之而来的整体良率的降低。
3. emib(embedded multi-die interconnect bridge)
emib
emib是intel主导的2.5d封装技术，使用多个嵌入式包含多个路由层的桥接芯片，同时内嵌至封装基板，达到高效和高密度的封装。由于不再使用interposer作为中间介质，可以去掉原有连接至interposer所需要的tsvs，以及由于interposer尺寸所带来的封装尺寸的限制，可以获得更好的灵活性和更高的集成度。
总体而言，相比于前述介绍的mcm、cowos和info/lsi技术，emib技术要更为优雅和经济高效，获得更高的集成度和制造良率。但是emib需要封装工艺配合桥接芯片，技术门槛和复杂度较高。
chiplet架构挑战和洞察
基于chiplet的架构设计，首先要考虑不同chiplets之间如何进行功能划分和架构定义，目前主流的设计思路大致可以分为两类：
第一类
基于功能划分到多个chiplets，单个chiplet不包含完整功能集合，通过不同chiplets组合封装实现不同类型的产品，典型代表为huawei lego架构(kunpeng & ascend)、amd zen2/3架构。
huawei lego架构：采用compute die(compute + memory interface)和i/o die组合的形式进行不同chiplets功能拆解。在compute die(cpu/ai)设计时采用先进的工艺，获得顶级的算力和能效，在i/o die设计时采用成熟工艺，在面积与先进工艺差别不大的情况下获得成本收益。并且不同的chiplets的数量和组合形式都可以灵活搭配，从而组合出多种不同规格的云端高性能处理器产品。
huawei lego
amd zen3架构：采用ccd(compute)和ciod(memory interface + i/o)组合的形式进行不同chiplets功能拆解。在ccd设计时采用最先进的工艺，获得顶级的算力和能效，在ciod设计时采用成熟工艺，在面积与先进工艺差别不大的情况下获得成本收益。并且ccd本身按照两个4c8t cluster组合的形式设计，可以适应amd从desktop到server的架构需求，根据场景选择ccd数量和设计对应的ciod即可，灵活度非常高。
amd zen3
第二类
单个chiplet包含较为独立完整的功能集合，通过多个chiplets级联获得性能的线性增长，典型代表为apple m1 ultra、intel sapphire rapids系列。
apple m1 ultra：通过apple自研的封装技术ultrafusion来堆叠两颗m1 max芯片，使得两颗芯片之间拥有超过2.5tb/s带宽且极低延时的互联能力。基于这个互联的延时带宽能力，可以使得m1 ultra直接获得两倍m1 max的算力，同时在软件层面依然可以将m1 ultra当做一个完整芯片对待，而不会增加额外的软件修改和调试的负担。
apple m1 ultra
intel sapphire rapids：通过两组镜像对称的相同架构的building blocks，组合4个chiplets，获得4倍的性能和互联带宽。每个基本模块包含计算部分(cha & llc & cores mesh， accelerators)、memory interface部分(controller， ch0/1)、i/o部分(upi，pcie)。通过将上述高性能组件组成基本的building block，再通过emib技术进行chiplet互联，可以获得线性性能提升和成本收益。
intel sapphire rapids
基于chiplet的架构设计，同时要考虑多个chiplets如何进行有效互联和扩展，实现高效灵活可扩展的架构，避免多chiplets之间出现信号死锁、流量拥塞等功能和性能问题。由于芯片内部互联通常为可靠连接假设下的并行数据传输，而芯片之间的互联通常为不可靠连接假设下的串行数据传输，根据芯片片上和片间互联架构的组合和流量收敛情况，目前主流的设计思路和应用场景大致分为两大类：
第一类
片上片间相同架构，流量全打平或基本打平。典型代表如cerebras，采用从tile到single die到wafer scale engine完全相同的互联架构。另一个典型代表是tesla dojo，采用info-sow的封装和芯片四边全部放置i/o接口的方式实现片内每个方向10tbps带宽，跨片每边4tbps，sow集成后单边带宽9tbps。
cs-1 wafer scale engine
dojo d1 chip
第二类
片上片间架构相似，片间流量按照一定比例收敛。典型代表一个是前述的huawei bufferless multi-ring架构，片上流量会收敛到分布式的各个跨片接口;另一个典型代表是前述的apple m1 ultra，片上流量收敛到ultrafusion集中交换部分。
bufferless multi-ring
从计算负载的角度，当单个计算任务计算密度较高，超出单芯片算力范围的时候，需要多个芯片协同来完成，此时跨片数据交互也需要提供和片上数量级相当的带宽和延时，才能更有效利用算力，提高计算效率。典型的任务类型是ai的训练任务，前述cerebras和dojo的互联架构对这类场景有较强优势。当计算任务数量庞大，单个任务负载较小，跨片流量通常是要远小于片上流量的，此时采用流量收敛策略更为合适。
从互联架构的实现方式和实现策略角度，通常根据网络的拓扑、路由策略、防死锁机制等又可进一步细分，本文由于篇幅限制不再详细介绍。
chiplet协议介绍
工业界大约从2016年开始就在逐步尝试基于chiplet的芯片设计，经过长时间的摸索，已经在封装工艺、架构设计上有了深厚的积累和长足的进步，在这样的背景和契机之下，由intel、amd、arm、ase、google、 meta、microsoft、qualcomm、samsung和tsmc共同开发和制定的ucie 1.0在2022年3月正式推出。
ucie标准的初衷和目标，是建立一套chiplet技术相关的设计和制造等各个环节的参考标准，从而使得不同设计和制造厂商的芯片可以无缝集成，从而打造封装层级的完整灵活的芯片开发生态系统。基于chiplet技术和ucie标准，可以实现超过单个掩膜版尺寸的芯片面积，获得更大尺寸、更高集成度的高性能芯片。同时基于标准的ucie，可以使能各类不同工艺和不同大小的芯片和ip在封装层面进行集成，有效降低开发成本，同时减少开发周期。
figure. initial motivation of ucie
ucie主要规定的规格和标准包含以下几个层面(具体内容本文不再赘述)：
协议层：定义了高层级通信协议标准，初始版本采用成熟的pcie加cxl协议。
中间层：定义了chiplets之间的适配标准，包括link状态管理，参数对齐，信号的选择校验，以及可能的重传机制。
物理层：定义了电气信号连接的标准、物理链路设计标准，包括电气信号定义，时钟定义，link和sideband训练。
figure. layering with ucie
总结
综上所述，经过数年的发展，chiplet技术已经逐渐走向成熟和商用，成为芯片厂商比较依赖的技术手段，也被认为是未来芯片行业发展的重要方向。目前在底层封装层面，已经有tsmc、intel等厂商提供cowos、emib等先进封装，可以提供超高速、超高密度和超低延时的chiplet互联;在标准协议层面，也有众多大厂领衔发布的ucie 1.0版本，提供了跨片接口设计的指导和约束。而在架构设计层面，如何基于chiplet设计高性能、高效率、灵活可扩展的互联架构，如何基于实现和商业视角进行芯片间的功能划分仍然是chiplet技术中最大的挑战。

MySQL高级进阶：索引优化
原厂供应有感三相直流无刷电机驱动控制芯片CK3362N/S
中国移动发布了2020年5G多模路测软件和5G多模扫频仪集采公告
【解决方案】安科瑞电气电力物联网为建筑运维节能增效
基于LTC6803的电动车锂电池管理系统设计
支持Chiplet的底层封装技术
全“芯”升级！国产Q-EDA软件本源坤元2.0版本上线
65寸智能会议平板广泛应用于校园
PON供应商的市场格局不断扩大,PON市场正面临着分化
汽车电子稳定系统（ESP）的原理分析
物联网控制系统智能一体化灌溉泵站
rfid如何改善医药冷链物流的现状
单片机控制步进电机的原理
光学传递函数的发展及其应用
HT for Web (Hightopo) 3D场景环境配置（天空球，雾化，辉光，景深）
电磁干扰(EMI)如何减轻PCB上的电磁干扰
FPGA和单片机的串行通信接口设计
如何利用地址来查询比特币交易
凌力尔特推出新款DC/DC控制器LTC3838
三大运营商的第一批5G网络覆盖城市落定,联通要发力了！