驱动云/边缘侧算力建设的高性能互联接口方案

9月14-15日,2023全球ai芯片峰会(gacs 2023)在深圳正式举行。奎芯科技应邀出席大会,副总裁王晓阳发表主题为《驱动云/边缘侧算力建设的高性能互联接口方案》的演讲。在演讲中,王晓阳分享了aigc产业算力需求引发的芯片互联趋势,并对算力芯片瓶颈进行了分析,提出了奎芯内存互联解决方案和chiplet方案落地案例。
aigc引爆的芯片互联趋势
最近几年ai模型快速发展,模型规模每年差不多10倍速度增长,当令人惊讶的1750亿参数的gpt3已成为过去式,迎来更大体量的万亿参数时代,ai系统算力需求也随之增加,几乎每季度翻倍增长。最近几年体系结构讨论最多的问题之一就是如何破解两堵墙:内存墙和i/o墙。多年来通过工艺进步,计算架构设计革新等方法,理论算力的增长速度是惊人的,但是内存带宽,互联带宽的增长却相对缓慢,造成了巨大的落差,最近业界也在尝试很多方法来缩小这些差距比如:增加缓存,多级缓存架构,堆叠缓存;尽量提高单节点算力减少互联的overhead;用高速的芯片互联和系统互联的serdes做芯片互联等等。
英伟达gh200非常重点的强调hbm带宽,lpddr容量,以及nvlink的速度。amd发布的mi300x对算力指标提都不提,只提内存容量、内存带宽以及互联带宽。因此可以看到在llm的游戏规则下,内存容量、内存带宽以及互联带宽成了最核心的竞争力,而算力的重要性相对下降。
算力芯片瓶颈分析
目前主流ai大芯片采用hbm为主,它的价格相对其他内存要贵,但单位带宽成本较低。
hbm使用有诸多限制,其一是因为hbm的颗粒必须和soc的die要对齐,合封在一起,所以它是一个紧耦合的状态,会带来如下限制:在hbm数量方面,soc与hbm必须保持贴合,导致hbm颗粒数量受限于芯片边缘长度;在热管理方面,dram的温度敏感性会限制soc的工作频率,从而影响性能,而soc与hbm之间的热交互对测试提出了更高的要求;在设计实施方面,hbm ip的布局和适配性相对不够灵活;另外,工艺限制要求soc与hbm host ip必须采用相同的工艺制程;最后,需要注意的是soc的面积占用问题,在12纳米工艺下每个hbm host ip大约占据30mm2,限制了计算单元的面积。
其二是主流hbm的应用还是以先进封装为主,包括silicon interposer 或者silicon bridge等,也带来了不少限制:interposer尺寸受限制,最大只能有3到4个曝光面积;2.5d封装的成本较高,与标准封装相比价格高出4倍,近期台积电的cowos单价上涨了20%;采用ubump作为连接点时,测试覆盖率有限,当封装中包含超过6个hbm和2个asic时,良率明显下降;最后,cowos产能有限,台积电的cowos产能紧缺,国内2.5d封装技术还不够成熟。
奎芯基于ucie接口的hbm互联方案
针对这些问题,奎芯科技打造一站式解决方案—m2link,用于将hbm和soc解耦。基本做法是利用一颗chiplet将hbm接口协议转成ucie接口协议,然后用rdl interposer 把chiplet和hbm内存封装成一个标准模组,最后通过普通基板来和主soc进行封装。这样主soc和标准模组间距离预计可以拉远到2.5cm,克服了原先主soc和hbm紧耦合和绑定的限制,同时也无需受限于先进封装的高成本和si interposer的有限尺寸。除此之外还有诸多好处,比如以ucie ip取代hbm ip,节省了主芯片面积,主芯片成本降低;单位边长可以连接更多的hbm标准模组,内存容量和带宽都可以得到提升等等。
以目前主流芯片为例,soc近hbm的边长为30mm的话,可以摆放6个hbm颗粒,利用m2link方案的话,双边共可以摆放8个hbm模组,同等大小的soc可利用面积增大44%,内存容量带宽增加1/3, 最大封装面积可以增加一倍以上。
奎芯chiplet落地解决方案
奎芯科技作为国内领先的互联ip产品及chiplet产品供应商,国产自研内存及互联解决方案,奎芯lpddr5x接口速率可达8533mbps,业界领先。奎芯d2d接口则具有高速率、低功耗、低延迟等优势。而奎芯hbm接口可支持国产工艺 phy+ controller 全套方案,速率可达6.4gbps。目前,奎芯已经有70件知识产权申请,以及16件荣誉奖项。
奎芯科技基于对于整个封装供应链的整合能力,目前和客户一起打造一款标准的带hbm3的2.5d全国产封装大芯片,将会提供包含hbm ip, interposer设计,2.5d封装的设计的完整的turn key solution。
同时,奎芯科技基于d2d(ucie)解耦soc和hbm host的思路不仅适用于云端训练和推理的大算力芯片,在端侧已经有具体实践的案例,目前在给客户打造的是一款低功耗计算产品的io die。对于此场景,客户希望计算部分用最先进的制程,考虑到昂贵的成本,客户还是希望解耦内存接口放到成熟工艺上实现,因此我们给客户打造一颗包含 lpddr host 的完整io die, 实现内存接口解耦,降低成本,为客户未来产品升级增加灵活性。
奎芯科技致力于建立开放生态的一站式chiplet服务平台,提供接口ip,chiplet,系统设计和先进封装设计等服务,配套强大的供应链资源及高效的系统整合服务,为客户提供完整的一站式解决方案。
来源: 奎芯科技


详解AC/DC和DC/DC转换器
大学毕业设计一席谈之五十 删余卷积码仿真(2) 编译码函数
“任意门”成为现实:骁龙845为你带来更沉浸的体验
英特尔Arria 10 FPGA的应用之路
电阻式触摸屏接口电路(S3C2410)
驱动云/边缘侧算力建设的高性能互联接口方案
使用DPU迎接HPC和超级计算性能的新时代
用毫米波传感器为汽车带来高级视觉
嵌入式DisplayPort带来更高的显示效率
锅盖卫星接收天线制作,Satellite Antenna
高空测报灯的应用场景及其使用效果的详细讲解
iPhone 8将改名iPhone X?iPhone8将配备5.8寸OLED显示屏?
为什么LED内不集成限流电阻呢?
自顶向下和逐步求精
如何实现STM32F407单片机的ADC转换
使用联合学习桥接金融服务中的数据孤岛
智能余压报警系统是否需要与其他防火设备和建筑智能化系统集成?
最新48Gbps的HDMI连接线缆即将上市
FAST的建成使天体发出的电磁波优于10毫米的设计标准?
五款飞行汽车的详细介绍