(文章来源:eeworld)
大规模部署、管理和编排计算加速芯片并不容易。相反,云提供商的经济权衡更倾向于加速器产品提供的非性能方面,比如操作系统驱动程序。liftrinsights在过去一年中一直在跟踪四大基础设施即服务(iaas)云提供商提供的实例类型和大小:阿里云、亚马逊云服务(aws)、谷歌云平台(gcp)和微软azure。
在最近的linley会议上,kevinkrewell在他的演讲中提到了编译器专业知识的重要性。然而,应用程序对加速器硬件的高效使用只是跨云地理管理和编排加速器芯片所需的整个软件解决方案的一部分。
数据中心日益膨胀,运营商正在寻找新方法来加速大量数据驱动的工作负载,从深度学习到自然语言处理。在我们即将到来的数据中心特别项目中,我们将深入研究加速ai模型训练和推断、数据分析和其他分布式应用的敏捷和超聚合数据中心架构。
在排名前四的云服务商中,所有的加速器芯片(无论类型或制造商)在过去的一年里都只连接到英特尔的xeon处理器上,除了最近在微软azure上安装了amd的epyc。azure在今年2月率先打破了这一格局,首次生产部署了带有amd epyc v2 rome处理器的amd radeon instinct mi25gpu。
超大规模的挑战是对对不同处理器模型的软件驱动程序支持,所述不同处理器模型运行不同的操作系统发行版本,且版本是针对每个加速器芯片的多个版本。阿里云平台的ecs服务器大多使用intel 至强处理器,而且大多是定制版,包括platinum(铂金) 8163、gold(金牌) 6150、gold(金牌) 6149、e5-2682v4、e5-2680v3、e5-2667v4以及e3-1240v6等cpu。
阿里云正式发布云服务器ecs企业级产品家族,目前已推出面向173种企业应用场景的19款实例。该系列适合在复杂的企业计算环境下,满足对于高性能、高可靠的计算需求。同时阿里云也新发布了该系列产品中采用25g网络与skylake处理器的全新一代实例,性能持续领先。这是阿里云首次将云服务器产品线细分出企业级产品家族,与入门级产品家族相比,这一新家族实例具备更强的计算性能与可靠性,适合于核心生产业务需求的计算。
目前ecs企业级产品家族包含19款实例族,分为通用型(general purpose type)、计算性(compute type)、内存型(memory type)、高主频(high frequency compute type)、本地ssd型(local ssd type)、大数据型(big data network enhancement type)、gpu计算(gpu compute type)、fpga计算(fpga compute type)等类型,分别适用于包括ai、医疗、视频直播、金融、电商、iot在内的173个应用场景。
虽然编译器和加速api必须是高性能,但是加速驱动程序必须是稳定可靠才行。超大规模的客户希望看到bug修复、防弹质量保证以及最重要的过程控制方面的快速转变。在处理器市场中,可靠性、可用性和可服务性(ras)一直是采用arm处理器的最大障碍之一。加速器也不例外。确保驱动程序ras处于超大规模是一个与设计性能编译器截然不同的技能集。它需要时间来发展技能和过程控制来展示一个稳定的行为的历史。
英伟达的86%的实例类型由前四个云服务商提供。这一份额与fpga(英特尔和xilinx)、gpu(amd部分产品和最近的radeon instinct)以及云自身的内部设计(谷歌云张量处理单元[tpu]和awsinferentia)等高度分散的竞争领域形成了鲜明对比。在这里,仅仅在加速器的开发工具后面使用性能编译器是不够的。我们假设每个加速器芯片开发团队都有机会接触到相当优秀的编译器开发人员和普通的开发人员工具设计人员。
开发工具必须能够被大量的潜在客户使用,并且必须按照开发人员所期望的那样工作。nvidia的cuda为工具开发者提供了一个灵活的基础,使他们能够跨nvidia的gpu产品线支持各种各样的开发工具。英伟达在加速器市场的份额在过去一年中略有增长,在前四大云计算中,基于加速器的整体部署增加了近70%。
azure支持amd的radeon instinct mi25在一个类型家族(nvasv4)中,但只在windows上,类型家族的每个实例的部分gpu配置是典型的虚拟桌面环境。amd已经展示了对实际企业桌面环境的强大支持,其先进的gpu虚拟化特性使其gpu在虚拟桌面方面具有竞争力。
只有通过深度学习框架,才能使用内部设计的深度学习加速器。谷歌允许开发人员通过tensorflow和pytorch访问其云tpu。aws允许开发人员通过自己的aws神经元软件开发工具包(sdk)访问它的“下一层”芯片,aws已经集成了tensorflow、pytorch和mxnet。
azure提供了一个基于intelarria10fpga实例类型(pb)。但是azure只允许通过一组预先开发的深度学习推断模型来访问这一类型:resnet50、resnet152、densenet-121、vgg-16和ssd-vgg。azure在2019年11月将其fpga实例类型部署到生产中。
阿里云和aws提供通用fpga实例类型,并与第三方合作,在应用市场上提供fpga开发工具和预先开发的应用程序。有两个挑战。首先,fpga开发技能很少,不像gpu开发工具和深度学习建模框架。其次,fpga市场应用程序必须比基于gpu的应用程序显示出明显的优势。
芯片产业的摩尔定律想必大家都不陌生,通俗版的解释是每18个月同等价格的芯片计算能力会翻倍。最近几年在pc和移动等个人芯片已满足大多数计算需求时,关于摩尔定律不再生效的论调也遍地都是。
实际上,传统计算硬件还在发展,只是速率慢了。随着大数据、人工智能的崛起,需要ai运算处理的数据,差不多每24个月就至少增长一倍,建构模型的复杂度是原来的五倍,与之相关,就需要计算能力强大十倍芯片能及时跟上,这一计算能力的提升,需要算法、软件和硬件工艺相互配合共同来完成。
为了应对量级增长的算力需求,百度发布了昆仑ai芯片,参数如下:14nm工艺;260tops性能;512gb/s内存带宽;100+瓦特功耗。昆仑ai芯片具有高效、低成本和易用三大特征,其针对语音、nlp、图像等专门优化,同等性能下成本降低10倍,支持paddle等多个深度学习框架、编程灵活度高、灵活支持训练和预测。
在iaas方面,在软件即服务的云中,facebook正在与开放计算平台(ocp)加速器模块工作组(oam)合作,开发标准化的培训和推理平台。oam培训平台被设计用来容纳大范围的高瓦数、商业深度学习加速器,使用一个可互换的模块,集成了加速器芯片和散热器,包括amd、intel/habanagraphcore和nvidia加速器。同样地,oam推断平台被设计成在一个标准的m.2物理载体中容纳各种各样的小的低功率推断加速器。
facebook已经设计了自己的glow编译器,以优化在标准框架(如pytorch)中开发的推断模型,使之适用于每个特定的基于m2的推断加速器。开放式基础设施,如ocp的oam,将使低层云能够更好地与aws、azure、gcp和阿里云等巨头正在激烈竞争。
如何打破半导体设备国产化率低的困境 套路也是进步
关于DS1302典型应用原理图
温度传感器的使用
pcb过流能力详解
科创板交控科技副总经理王伟介绍、履历信息
全球云市场稳步发展,云服务将迎来最好时代
信息网格服务结构模型及未来发展方向
意法半导体推出针对智能工业应用的高集成度、高灵活性的同步整流DC/DC转换器
Datalogic得利捷将携新品Memor 11系列移动终端亮相2023中国零售业博览会
自动驾驶浪潮袭来,汽车产业链面临重新洗牌
进博会展品抢先看,英飞凌携3D打印人形机器人Roboy 2.0首度亮相中国
新提出的激光器不需要通过所谓的受激辐射发光
探索利用MCU增加LED照明系统的智能程度的方法
分享一个超棒的stm32的开源usb-can项目
苹果招聘研发6G:希望成为该技术的领导者
AI如何真正赋能到落地场景中,带来实际价值
模拟晶圆生产线产能需求旺盛,国内现有产能严重不足
下游新能源汽车市场复苏带动上游锂盐市场需求增长
Haylou Smart Watch智能手表在小米有品商城开启众筹 首发价99.9元
开放、包容的MM32合作共赢平台——2019灵动MM32协作大会成功举办