陈巍谈芯:产业巨头已经打通存算一体技术的落地通道,存算一体技术加快应用部署。与未使用hbm-pim(hbm-pim gpu v.s. hbm gpu)相比,仅用20nm工艺就使7nm集群计算性能提升了2.5倍。这个思路也是本人在2016年给中科院提的研发建议。
三星电子于 12 月 12 日宣布,他们开发了世界上第一个基于数字存内处理 (pim,也可称存内计算或存算一体) 芯片(hbm-pim)的gpu的大规模计算系统。
三星电子高等技术研究院人工智能研究中心副主任崔昌圭(choi chang-kyu)在由三星电子主办的2022人工智能(ai)半导体未来技术大会上通过主题演讲披露了新计算技术的发展。他们通过组合来自amd的96个gpu(mi100)构建了一个大型计算系统,每个gpu都加载了一个hbm-pim芯片,并成功展示了存内处理 (pim) 芯片的性能。这是一种存算一体技术,可以显著减少数据在cpu 和 dram 之间移动的频度并提升性能。
存算一体技术超越传统冯诺依曼架构
pim 是指将计算单元与随机存取存储器 (dram) 集成在单个芯片上。这项技术有望有助于提高庞大的人工智能 (ai) 的性能。三星使了严格意义上的芯片内数字近存计算来提升ai计算性能。三星 hbm-pim 芯片与其他公司 hbm 实现的不同之处在于,pim 芯片上的每个存储块内都包含一个内部处理单元。
三星hbm-pim阵列架构
基于存算一体技术的20nm hbm-pim(dram工艺)使得7nm gpu性能增强2.5倍
根据三星去年在isscc发布的学术文章信息披露,该hbm-pim使用的是三星的20nm dram工艺。负责计算的pcu与dram 阵列在同一个晶圆平面内,显著性能提升主要来自存算一体技术而非3d 堆叠封装。仅用20nm工艺的pcu进行简单的逻辑计算(dram工艺做逻辑计算其实不划算,外周的逻辑晶体管的实际栅长在32nm附近),就使得7nm工艺gpu集群的性能提升到2.5倍。
三星电子使用该系统训练语言模型算法t5(text-to-test transfer transformer)时,与未使用pim时相比,性能提升了2.5倍,功耗降低了2.67倍。与仅配备 hbm 的 gpu 加速器相比,配备 hbm-pim 的 gpu 加速器一年的能耗下降了约 2,100 gwh。三星表示,其 pim 技术将对能源消耗和环境具有重大影响,可将集群的年能源使用量减少,相当于减少 960,000 吨碳排放。
三星hbm-pim架构图
三星开发的另一个方向是使用 cxl(compute express link)开放标准,用于高速处理器到设备和处理器到内存的接口,从而可以更有效地使用与处理器一起使用的内存和加速器。
cxl 可以与其他技术结合使用,例如 processing-near-memory (pnm),以帮助促进内存容量扩展。
与 pim 一样,它通过使用内存进行数据计算来减少 cpu 和内存之间的数据移动。在 pnm 的情况下,计算功能在更靠近内存的地方执行,以减少 cpu 和内存数据传输之间发生的瓶颈。
三星本月早些时候推出了带有 cxl 的 pnm 技术,用于高容量 ai 模型处理。在测试中,基于 cxl 接口的 pnm 系统在推荐系统或需要高内存带宽的内存数据库等应用中性能翻倍。
流量计与液位开关有什么区别
米家电磁炉青春版高清图赏
基于MES的RFID数据采集你了解吗
Bamboo-pipeline:Python高效流程编排引擎
《长安十二时辰》中竟还内涵了工业互联网的内在逻辑!
基于数字存内处理芯片的GPU的大规模计算系统
英飞凌发布IMC300电机控制器系列 是对IMC100系列的补充
电磁感应方式的工作原理
8英寸晶圆产能紧张的连锁反应
安科瑞AKH-0.66/K开口式电流互感器 用于配电系统改造项目
压差旁通阀工作原理_压差旁通阀的作用
专注计算与连接,高通深耕IoT生态
快充桩与慢充桩的对比以及快充桩的发展 150-240kW直流输出是未来趋势
众泰t700怎么样?国产颜值最高SUV,配置高动力强悍,亮点比哈佛H9还要大!
智能手机屏幕素质排行榜公布
360手机N7Pro评测 堪称同价位最均衡的手机代表
苹果计划在2020年第三季度推出5G手机来夺得市场主导地位
TDA8425各引脚功能的电压参数资料
宁德时代新专利利用负极电位安全阈值与负极电位估计值的大小关系
魅族17的渲染图曝光,将采用双曲面屏设计