以“智联世界 生成未来”为主题的2023世界人工智能大会,即将在本周(7月6日)拉开帷幕。从今年的大会主题不难看出,生成式人工智能(aigc),正是当下人工智能学术界、产业界的最大热点,可以想见,大会期间,各家厂商的自研大模型将上演一场名副其实的“百模大战”。
回顾aigc走红的过程,2018年谷歌发布transformer模型无疑是一个关键里程碑。由于舍弃了nlp领域自回归计算范式的lstm/gru传统算法,从cv领域借用已较为成熟的注意力机制,以位置信息取代时序信息,transformer得以充分利用gpu等simd架构处理器硬件的并行处理能力,实现了令人惊艳的工程效果,并使大型语言模型(llm)成为其后迅速走向主流的研究路径,工程实践与能力涌现的良性循环,最终为chatgpt、midjourney等产品的现象级传播奠定了基础。
当下这场无人甘于错失的ai淘金热中,大算力ai芯片,顺理成章成为衡量各家aigc业务能力的最重要标尺之一,得到了空前关注。不过在公众舆论场中,这一极具解析价值的议题似乎被简单粗暴地等同于“囤积了多少块英伟达a100/h100”。有鉴于此,集微网特意对国内外开发大算力ai芯片的科技公司概况进行了整理,以期为读者提供一幅ai“大芯片”全景图谱。
通用还是定制,ai芯片体系结构“天问”
1991年,当黄仁勋还未创立英伟达之时,深度学习“三巨头”之一的杨立昆(yann lecun),就已经在贝尔实验室开发了卷积神经网络专用训练芯片anna,初步验证了为ai训练、推理任务开发的领域专用架构在算力、能效上的优越性。
2015年前后,在alexnet、alphago的震撼下,大批企业涌入ai芯片市场,掀起了这一细分赛道的第一波创投热潮。作为ai芯片中最为高端的品类之一,面向数据中心市场的ai大算力芯片也吸引了众多新老玩家。集微网所梳理的主要厂商,彼时普遍押注于两大技术路线,即英伟达为代表的gpgpu路线,和谷歌tpu为代表的定制asic路线。
数年后的今天,英伟达gpgpu无疑依然占据着市场主导地位。
根据集微咨询(jw insights)统计,ai类芯片在2022年352亿美元的市场规模中,gpgpu占比接近60%,trendforce则预测,2023年ai服务器(包含搭载gpu、fpga、asic定制芯片)出货量近120万台,其中英伟达gpu市占率约60-70%,云计算巨头自研ai芯片占比约20%。
在英伟达高端产品一卡难求的同时,不少曾经的ai芯片独角兽则已悄然退场,连续收购habana、nervana、movidius等ai芯片明星创企的英特尔,近期也传出加速计算产品线被大幅削减的消息。
定制大算力ai芯片的“骨感”现实,一方面源于ai模型、算法、用例本身极为快速的迭代,使针对特定模型的硬件优化往往面临问世即过时的可能,通用芯片与软件优化的组合有其内在合理性,并且谷歌及一众初创企业实践的asic路线依靠乘加器脉动阵列来训练神经网络,往往面临流水线头尾开销大,计算资源利用率不足的问题。
更重要的是,对需求端的ai开发者而言,英伟达不仅意味着一个加速卡硬件品牌,更是完整ai开发平台的代名词。从杨立昆、辛顿(geoffrey hinton)等人的开创性工作开始,英伟达cuda并行计算框架,已经成为事实上的ai学术界、工业界通用标准,在ai开发者社区形成了明显的网络效应,恰如英特尔在cpu领域的统治力来源于ibm pc机所培育的终端用户生态。
当然,asic路线暴露出的不足,也刺激了进一步的技术、架构探索,自fpga起源的可重构计算,近年来又向由数据流驱动的空间计算(spatial computing)演进,涌现出tenstorrent、特斯拉、cerebras等新秀。
aigc空前热潮下,英伟达之外的新老玩家在大算力ai芯片领域技术与产品布局正在加速。
以全球三大云计算厂商为例,亚马逊近期主动对外表态,对amd为数据中心ai负载开发的新一代mi300 apu表示了明确兴趣;全球第二大厂微软,也在近期被曝出代号athena的自研ai芯片项目,据称已有部分样品供微软和openai员工试用,第三朵“大云”谷歌,刚刚公开了tpuv4号称“登月工程”的pods架构设计。定制大算力ai芯片,缘何“风云再起”?
旧瓶新酒,定制ai芯片拥抱chiplet
要理解供给端的技术与产品潮流变化,首先应当在需求端寻找线索。生成式人工智能的基本特征之一,无疑是对计算、存储、io带宽能力堪称永无止境的需求。
为了命中市场需求新的“甜蜜点”,各大厂商也展开了堪称八仙过海的多元探索,而这样的探索,显然不会是上一轮ai芯片竞争的简单重复。
在英伟达、谷歌等厂商致力于挖掘集群podrack层面系统工程潜力的同时,更多ai芯片开发者在性能“军备竞赛”中,将目光投向了chiplet(芯粒)工程方法,将之作为构建大规模、可扩展、高能效异构算力集群的基石,为了满足ai云端训练、推理任务对计算性能和内存带宽的需求,cpu/gpu/fpga/asic通过chiplet实现异构集成的实践已不断涌现。
如老牌巨头amd推出的mi300系列apu,集成晶体管数量近1500亿颗,通过三种chiplet芯粒(base layer、gpu gcds、cpu ccds)与不同规格hbm灵活搭配,可以形成丰富的产品组合,覆盖客户差异化需求,研发成本和量产成本都极具优势。
再如近期被诸多巨头追捧的ai大芯片初创企业tenstorrent,就明确以chiplet作为产品迭代方向,并已经与lg电子达成具体产品合作意向。
大体而言,业界当前对chiplet的技术与商业价值已形成广泛共识。
在计算性能上,芯粒的立体堆叠能够突破光刻掩膜尺寸极限,大幅提高集成晶体管密度并降低数据传输资源开销,不同体系结构的计算核可灵活组合,形成高内聚、低耦合、可配置、可伸缩的“超级芯片”,适应各类aigc算法优化需求,实现从system on chip到system of chips的转变,在算力集群的系统层面继续推进摩尔定律。而在商业上,chiplet更有望大幅减少开发量产成本及周期,进一步降低ai算力硬件开发、制造门槛。
此外,如果说海外用户还可以坐观各家差异化方案成败,那么在中国这一全球最二大ai支出市场,大算力ai芯片“另辟蹊径”,更可以说是“must be”的紧迫要求。未来海外高端gpu/apu即便还可继续“特供”,在互连带宽等关键参数限制下,也将实质性失去处理更大规模模型的能力。
从产业视角看,die-to-die(d2d)互连,则堪称chiplet走向商业应用的最关键环节,同样已成为chiplet产业链创新创业的热点。
tenstorrent公司ceo、芯片设计大师jim keller就曾谈到,当前chiplet加速成熟,一个重要因素就是封装技术已能够提供较为理想的d2d信号链路,满足芯粒互连的带宽、功耗需求。
在这一产业环节,除了传统互连ip供应商延申拓展其布局,目前国内外也已涌现出blue cheetah、奇异摩尔(kiwimoore)、eliyan等新锐厂商,并呈现出十分旺盛的创新活力。
国内代表性厂商奇异摩尔成立于2021年初,是全球首批基于 chiplet 架构,提供“通用互联芯粒产品及系统级解决方案”的公司。核心产品涵盖高速互联io die、高性能互联底座base die两类芯粒,以及一系列 die2die ip 和 chiplet 软件设计平台等全链路软硬件产品。公司面向由 aigc 驱动的数据中心、自动驾驶、个人计算平台等高性能计算市场,通过提供以互联芯粒为核心的 chiplet 系统级解决方案,助力客户更快、更容易的做出复杂高算力芯片。
blue cheetah,则是海外目前风头最盛的d2d互连技术供应商之一,在bow和ucie联盟均十分活跃,其bluelynx d2d互连ip已经在多代工艺节点完成硅验证,并已经被dreambig、apex等企业应用于其数据中心网络芯片产品。
某种意义上看,这些企业在新赛道上的竞争,也将会决定其所在区域chiplet产业生态的发展水平。
chiplet,大规模异构算力集群基石
新一代人工智能技术中,无论是nlp领域的大模型(llmdm),还是搜广推领域兴起的dlrm模型,各种更新换代的ai工作负载已经明显超出单卡存、算极限,因此在单个芯片规格不断进步的同时,也势必需要由大量异构计算核心组合成算力集群进行处理,以高效完成ai模型训练、推理、迭代等各类生产流程。
aigc对硬件算力越来越高的要求,使用户日益关注作为一个整体的计算集群能效、费效表现,由大量异构计算核心组成的算力集群,无疑已成为aigc产业的重要竞争维度。
正如上文所述,aigc模型参数、数据集的超大规模,使得批处理过程中数据吞吐量极高,为了提升访存带宽,片内封装hbm几乎成为所有ai大算力芯片的必选项,而tenstorrent等新锐企业的空间计算范式创新,同样内嵌着异构众核的先进封装需求,正因如此,chiplet已被广泛视为构建大规模、可扩展、高能效异构算力集群的基石。
有鉴于此,集微网也联系到奇异摩尔这一本土chiplet产业代表厂商,邀请其分享了来自行业前沿的观察。
奇异摩尔联合创始人兼产品及解决方案副总裁祝俊东表示,当前超大规模计算集群的发展有着三大驱动因素:
第一,从单芯片本身的维度来看,对其性能依然有非常高的要求,各家厂商无不在继续致力于提升单片性能规格,不过传统的soc方式已经逼近极限,怎样做一颗更大的芯片就成为挑战;
第二,从ai角度着眼,不同类型的ai应用其实对于算子/算力的要求千差万别,既要兼顾在不同情况下的通用性,也要满足适度的专用性,例如对于transformer的优化;
第三,数据驱动的生成式人工智能,在运用中涉及大量预处理/前处理工作,已不适合纯用gpu处理,需要用到异构计算架构去处理。
算力集群的持续扩展和异构集成,也带来多重技术挑战,互连是其中尤为关键的瓶颈,在祝俊东看来,超大规模异构如果在板卡级或者集群级实现,互连带宽势必会成为瓶颈,尤其是东西向带宽随着节点规模扩大,在总带宽难以提升的情况下,更成为瓶颈,这也是业界推崇在芯片级异构chiplet的原因所在,片内异构集成在带宽、延时、功耗上能够带来更为优越的表现。
算力投资热潮下,chiplet产业也已经步入加速普及阶段,根据研究机构yole预测,狭义口径的chiplet(2.5d/3d封装芯片)产品,正在迎来出货量与市场规模的跃迁,2023、2024、2024年产品产值预计将分别达到70亿、480亿、990亿美元。
如此惊人的跳跃式增长,既受益于需求端ai/hpc大芯片等热门应用的“拉力”,也有供应端先进制程技术演进带来的“压力”。
半导体行业权威性的irds 2022版光刻技术路线图中就明确警告,如果高na euv在2025年成功实用化,将导致当前的euv***最大单次曝光面积进一步缩小一半,掩模尺寸必须更小,因此当高na设备被引入时,monolithic芯片的“解耦”(disaggregation)几乎不可避免,chiplet势必将从可选项向必选项转变。
综上所述,chiplet在数据中心市场的加速渗透普及已经是一个不可逆扭转的趋势,各个巨头的中高端产品里已经普遍使用chiplet工程方法。
跨越鸿沟,chiplet产业生态嬗变
如同二十年前的soc技术,“小荷才露尖尖角”的chiplet,产业链仍然处于发育的早期阶段,目前在高端处理器领域的代表性产品,依然多为芯片与系统大厂内部自研。对于当下想要试水chiplet的其他芯片开发团队,依然面临着多方面的技术与商业挑战:
第一,在前端设计上原有soc/asic方法学及eda工具链面临重构,以适应基于d2d互连的chiplet架构;
第二,chiplet产品总体性能并不简单等同于芯粒的堆叠规模,需要一套有效的d2d互联架构及算法以实现高带宽、低延时、低功耗,解决物理分离llc的numa(非统一内存访问),更进一步看,d2d互联还需要形成行业标准,以实现不同厂商芯粒的互连互通;
第三,异构乃至异质芯粒封装引入新的约束,后端设计面临热、力、电磁仿真及可测试性的全新挑战;
第四,目前能够提供可靠良率的成熟chiplet工艺方案依然有限,台积电cowos/info近乎居于垄断地位,其他拥有先进封装工艺能力的厂商,往往在pdk工艺库与eda设计工具的结合上依然滞后,导致chiplet芯片设计与制造能力无法有效对接。
对此,祝俊东也向集微网感言,传统芯片公司对于封装环节工艺细节普遍缺乏掌握,封装厂则需要客户提供其对先进封装工艺的需求,同样不了解相关技术如何在产品中发挥作用,因此产业环节对接还有很大的鸿沟,确实是一个有待解决的挑战。
基于上述原因,对国内外大部分公司而言,想要尽早布局新兴赛道,就必须借助于第三方厂商的服务,而与soc产业链上的ip/设计服务厂商相比,chiplet服务商覆盖的产业链条不但更长,其在整合产业生态上的作用也更为关键。
以在北美市场极为活跃的palo alto electron为例,该公司可为客户完成基板和系统设计、chiplet设计与验证、原型和pdk开发,结合生态合作伙伴的芯粒库和代工服务,形成了工程服务的“闭环”。
国内企业中,奇异摩尔也是这一新兴产业环节的代表,除了完善的芯粒库,该公司还可提供软件设计平台,可快速完成chiplet 系统设计、验证、仿真等工作。
国内chiplet产业发展同样堪称有声有色,在产品层面,华为公司早在2019年前后就已经完成五大基础chiplet设计,包括cpu-compute die、ai-computedie、compute-lo die、nic-io die和wireless-acc die,基础chiplet之间共享公共联接,并遵循共同物理设计规则,可基于不同的chiplet搭配组合出服务器cpu、ai加速期、smart-nic等多种数据中心大芯片产品,而在供应链上,设计服务、代工制造环节本土企业也正在加速崛起,以奇异摩尔为例,该公司目前除了完善的芯粒库、软件设计平台外,还与本土ic供应链巨头润欣科技达成合作,可望进一步形成turnkey式的完整解决方案交付能力。
从英特尔、amd到pae、奇异摩尔,大小公司、新老势力的活跃身影,共同勾勒出chiplet当下在大算力ai芯片领域掀起的变革浪潮,令人犹如置身千禧年之初soc大兴的年代,对于半导体产业人而言,能够在一场重大“范式转移”的现场亲眼见证,无疑是一种幸运。正如soc大潮成就了以高通为代表的众多fabless企业,深刻改变了全球半导体产业生态,chiplet的兴起,同样已经预示了大算力芯片市场的重大机遇。
凭借着毫不逊色于海外厂商的本土chiplet产业生态,在这一宝贵的机遇窗口,大算力ai芯片产业链的自主创新将会涌现更多、更大的突破,也必将更有力支撑我国生成式人工智能全产业链发展。有理由期待,即将开幕的世界人工智能大会,将为我们带来一系列惊喜。
LMH6672低噪声前置放大器与线路驱动器电路
计算机软件质量体系认证务实
安科瑞数据中心配电系统设计解决方案
怎样不编程制作Raspberry Pi街机
为什么手机厂家不做可更换电池了
AIGC催动异构集成浪潮,为本土产业带来历史性机遇
sdwan解决方案对比的同时怎么选择合适的sdwan解决方案厂商?
农用杀虫灯与农药杀虫对比优势
fpga用的是什么编程语言 Verilog HDL应用最为广泛
小米发布了隔空无线充电技术,让无线充电又一次登上了热榜
TV、STB和游戏机市场表现超预期
鸿蒙生态众行远| 药管家:如何做出“单月用户破千万”元服务产品?
工业机器人的灵动性依靠的是什么
区块链行业的未来将会如何?
三星S8、小米6对比评测:三星S8与小米6外观、跑分、内存大比拼,5大手机关心问题解析
升压解决方案,扩展汽车LED驱动器产品组合
还在翘首以待?5G可能没有你想象的那么好
8月,西安等你!| 第十四届国际信息光学与光子学学术会议(CIOP2023)
苹果apple Vision Pro 设计亮点,震撼!
基于MIPS的Qualcomm Atheros SoC创建智能灯泡