第四代英特尔至强可扩展处理器和Habana Gaudi2在深度学习训练中展现领先的AI性能

在mlcommons近日发布的ai性能行业基准测试结果中,代号为sapphire rapids的第四代英特尔至强可扩展处理器和专用于深度学习ai训练的habana gaudi2加速器展现了卓越的训练表现。
自去年6月提交了领先的mlperf行业测试结果以来,我们团队不断取得新的进步,这让我感到非常自豪。第四代英特尔至强可扩展处理器和gaudi2 ai加速器支持广泛的ai功能,为有深度学习训练和大规模工作负载处理需求的客户提供业界领先的性能。
——sandra rivera
英特尔执行副总裁
兼数据中心与人工智能事业部总经理
在众多数据中心应用场景中,基于至强处理器的服务器平台可用于运行一系列机器学习(ml)和数据分析的复杂管道,而深度学习(dl)正是其中的一部分。同时,这些服务器平台亦可用于运行其他应用程序,并能够适应随时间变化的多种工作负载。在这些使用场景中,至强可扩展处理器能够极大程度地降低总体拥有成本(tco),提高全年利用率。
第四代英特尔至强可扩展处理器内置全新ai加速器——英特尔高级矩阵扩展(amx),旨在帮助用户通过扩展通用至强服务器平台,覆盖包括训练和微调在内的更多深度学习使用场景。amx是一个专用的矩阵乘法引擎,内置于第四代至强可扩展处理器的每个核心。该ai引擎已经过优化,基于行业标准框架,可提供相较于上一代深度学习训练模型多倍的性能。
而在服务器或服务器集群主要用于深度学习训练和推理计算的场景中,habana gaudi2则是理想的加速器,针对这些专用场景,它旨在提供优异的深度学习性能并降低总体拥有成本。
英特尔首先提交了涵盖一系列不同工作负载的第四代英特尔至强可扩展处理器产品线的mlperf v2.1行业测试结果。作为唯一提交该测试结果的处理器,sapphire rapids再次被证实其优异的ai性能,使客户能够随时随地使用共享基础设施进行ai训练。内置英特尔amx的第四代至强可扩展处理器在多个行业标准框架中为用户提供即时可用的性能,并集成了端到端的数据科学工具,以及来自生态伙伴广泛的智能解决方案,开发者仅需使用tensorflow和pytorch框架的最新版本,即可充分释放其性能。现阶段,英特尔至强可扩展处理器已经可以运行并处理全部ai工作负载。
测试结果显示,第四代英特尔至强可扩展处理器正通过扩大通用cpu在ai训练方面的覆盖范围,让客户能够充分利用已经部署在商业应用中的至强处理器完成更多工作,尤其是用于中小型模型的训练或微调,即迁移学习。dlrm的结果便很好地论证了sapphire rapids能够在不到30分钟(26.73)的时间内仅用四个服务器节点即可完成模型训练。即使是面对大中型模型,第四代至强处理器亦可分别在50分钟(47.26)和90分钟(89.01)内成功训练bert和resnet-50模型。开发者可在一杯咖啡的时间内便完成小型深度学习模型的训练,在一顿午餐的时间内训练中型模型,并同时利用这些连接到数据存储系统的相同服务器,在下午进行诸如经典机器学习的其他分析。这也意味着企业能够将诸如gaudi2的深度学习处理器预留给更大、对性能要求更高的模型。
habana今年五月发布了用于深度学习训练的第二代gaudi处理器——gaudi2,在mlperf v2.0训练10天后汇总的成绩中表现出了领先的测试结果。gaudi2采用7纳米制程工艺制造,拥有24个tensor处理器核心、片内封装容量达96gb hbm2e和24个100gb roce以太网端口。
gaudi2在tensorflow中训练bert和resnet-50的时间缩短了10%。而gaudi2的pytorch结果则显示,与5月的gaudi1结果相比,其bert和resnet-50的训练时间分别缩短了4%和6%。这两组结果均在封闭和可用类别中提交。
这些优异表现突显了gaudi2专用深度学习架构的独特性、gaudi2软件的日益成熟以及habana synapseai软件堆栈的扩展优势。值得注意的是,该软件堆栈针对深度学习模型开发和部署进行了优化。
未来,英特尔和habana团队非常期待再次提交的英特尔ai产品组合解决方案的mlperf测试结果。


5G能给我们的生活带来那些方便之处
“小电虫”来了 大众拟采用MEB电动车平台生产甲壳虫
美国同意三星和SK海力士向其中国工厂提供设备
激光二极管的检测方法
室外环境监测系统
第四代英特尔至强可扩展处理器和Habana Gaudi2在深度学习训练中展现领先的AI性能
Oculus研发VR头戴式装置和Jedi控制器
电磁干扰滤波器原理图
关于MATLAB求导实践的总结
基于集成运放在信号运算电路方面的应用
华为智选车载智慧屏正式销售
鸿蒙系统什么时候能用
中国惨遭“缺芯之痛” 中兴事件就是中国通信真实反射?
一种FPGA+W5300架构的C0FDM无线图像传输系统设计
三星为何斥资80亿美元收购美零部件厂商?
工程师设计触控板如何选择哪种电容式感测最优?
机器人纷纷走向抗“疫”一线 消毒机器人成爆款
狂加工一年!ASML把欠中国的600亿光刻机,成功交付了
移动互联网时代下催生以云原生为代表的技术架构进入急速赛道
中国集成电路封测产业链技术创新联盟成立