为什么AI 加速器要减少 GPU 等高能耗硬件的使用?

由于大部分繁重的 ai 任务都是在云端完成的,因此人们很容易忘记 ai 需要大量的计算资源及电力。
马萨诸塞州大学阿默斯特分校去年的一项研究发现,训练一个大型自然语言处理(bert)ai 模型因消耗电力而产生的二氧化碳(co2),相当于跨大西洋往返航班对每个乘客所产生的 co2。那只是一个模型,虽然是变换网络,但只需训练一次。开发过程中通常会对模型进行多次调整和反复训练。如果将神经网络结构搜索(一种使用 ai 来调整模型的 automl 技术)加入一个大小适中的转换器中,其 co2 总排放量将猛升到几乎与 5 辆美国汽车的终身排放量相同。
图 1:训练一个大型的自然语言处理 ai 模型时,其消耗电力所产生的 co2 相当于跨大西洋往返航班对每个乘客所产生的 co2。
ai 加速器有望提高 ai 处理的计算效率。随着 ai 处理量的不断增加,数据中心将会采用这些新的专用加速器。
但是 ai 加速器可以节省能源吗?究竟是总的用电量下降了,还是数据中心只不过利用同样的电力实现了更多的计算?
ai 训练策略
“ai 计算使用的能量多少是由几个因素决定的。”ibm cognitive systems 技术计算副总裁 david turek 解释说,“采取什么样的策略来训练模型,会影响所消耗的能量。每瓦特的计算量并不是特别有用的指标,因为有很多种不同的方法可以降低总能耗。”
他补充说,整个系统架构和应用环境决定了实际上需要多少能源。“从模型训练到模型部署,计算能力的不同级别直接影响其基础架构,从而直接影响所消耗的能源。”
人们通常认为,ai 系统中一次只训练一个模型,然后将其部署到其他地方进行推理。但事实并非如此,典型的 ai 系统会多次训练很多模型,并且可能同时在多个模型上进行推理以获得最佳结果。
完成部署后,有时会使用联邦学习(federated learning)之类的技术,在边缘而不是回到数据中心更新增量模型。需要消耗多少能量取决于在边缘进行什么处理。
换句话说,训练特定的 ai 模型所消耗的能量并不是直接就可以确定的。“但数据中心的基础设施是固定的,因此调整工作流程是节省能源的最好方法。”turek 说。
可能的方法有:将 ai 模型与传统的高性能计算融合,以减少所需的总计算量;缩短完成一项工作所花的时间,以减少 gpu 等高能耗 ai 加速器硬件的使用;避免在数据中心使用联邦学习之类的技术重复训练。
turek 说:“这是从管理的角度来聪明地安排工作流程,利用最佳的方法为现有系统分配可用的能源。通过能源预算和能源消耗,运营商可以在其硬件基础架构上进行调度分配。”
在更高的温度下运行
服务器制造商 supermicro 去年年底发布的数据中心环境实践年度调查报告显示,能源效率仍然有机会提高。supermicro 营销和网络安全副总裁 michael mcnerney 认为,这些机会正在流失。
mcnerney 说:“我们认为一些基本的最佳实践可以为客户带来很大价值。其中的一条是,相比传统的数据中心环境,我们今天构建的系统可以在更高的温度下运行,许多长期从事数据中心运营的人却没有意识到这一点。”
在目前的设计中,不再需要将设备冷却到 23~25°c 来确保其性能和可靠性。一些“绿色”数据中心处于极端温度下,即便是很小的变化,例如减少空调的使用,也可以节省能源。
图 2:现代服务器和基础设施可以在更高的温度下运行,并且切换为多节点系统,从而降低了总能耗。
多节点系统是节省能源的另一种方法,其中多台服务器在共享的基础架构上运行。这种配置减少了所需的大型电源和风扇数量。多节点系统具有更高的能源效率,可以在更高的温度下运行,并提供更高的功率密度。
supermicro 的调查还发现,目前每个机架的平均功率密度为 15kw,服务器进气入口温度为 23.5°c,服务器每 4.1 年更换一次。而在采用高度优化绿色设计的数据中心(占受访者的 12%),每个机架的功率密度超过 25kw,平均入口温度为 26.5°c,服务器每 2 至 3 年更换一次。因此,supermicro 得出结论,大多数数据中心仍需继续优化能效。
令人惊讶的是,大多数受访者并不认为能耗是成功的关键指标。“我们已经看到,公司的设施预算与硬件及系统的资产购置成本是分开的,它们与人力成本也是分开的。我认为人们很清楚地知道这一点,但是并不会进行综合考虑和优化。”mcnerney 说。
“较大的数据中心更了解总运营成本,但若增加资产购置预算,能源预算就会减少,人们有时很难把这两者关联起来。”
mcnerneyt 认为整个数据中心的功耗并不会很快下降。他说:“长期的发展趋势是,一些在线服务的能耗会随着效率的提升而改善,然而随着 5g 和 ai 的逐渐普及,总体功耗仍将继续增加。”
电费与能耗
英伟达加速计算产品管理总监 paresh kharya 表示,数据中心运营商希望全面提高能效,因为电费占其运营成本的 25%。
能源使用效率(pue)是一项广泛使用的用来衡量能源节约的指标,表示计算所消耗的能源与数据中心基础设施消耗的总能源之比。目标是 pue 等级为 1。
kharya 说:“多年来,超大规模数据中心的 pue 接近 1 或 1.1,非常高效。企业数据中心也取得了很大进步,大多数情况下,其 pue 等级已经从大于 2 降到了远远低于 2。”
超大规模数据中心采用优化的机架和散热设计,可以大规模运行,其优化和使用复杂技术的能力是大多数企业数据中心不具备的。kharya 表示:“许多企业已开始采用这些创新技术,能源效率得到了显著提高。”
由于各家公司关注的是电费而不是功耗,所以 kharya 认为,执行任务所花费的时间是一个重要因素。“例如,在一台只有 cpu 的服务器上训练 resnet-50 模型的图像识别可能需要长达三周的时间,而配备英伟达 v100 gpu 的服务器可以在一天之内完成这一任务。”他补充道。
“每台配备英伟达 gpu 的服务器比配备 cpu 的服务器消耗的能源更多,但它完成任务的时间将大大缩短。因此,如果使用 gpu 加速器,用于完成 ai 处理的整体能耗将降低至原来的 20 到 25 分之一。”kharya 强调。
了解数据中心工作负荷
英特尔数据平台营销总经理 allyson klein 表示,数据中心运营商会尽量确保所有系统高效运行,让昂贵的基础架构提供最大的计算能力。
“数据中心运营商的主要目标是使基础架构的性能达到最好。”klein 说,“性能高低取决于系统和机架的级别,同时还需要整个数据中心协同工作,使每瓦性能达到最高。”
因此,为了部署合适的基础架构来满足性能和能耗要求,全面了解数据中心的工作负荷非常重要。最理想的结果是计算容量更大,功耗更低,并且不会闲置基础设施而白白消耗电力。
究竟是在 cpu 中集成加速功能还是采用分立的加速器,这通常需要进行权衡。klein 说:“加速器会增加功耗,但如果它一直工作,则整体效率更高。如果加速器完成大量工作,利用率高,在客户愿意投资基础设施的情况下,使用分立的加速器是较好的方法。如果不能一直使用加速器,则采用 cpu 方法可能是更好的选择,因为加速器经常会空闲,耗电却不执行任何任务。”
klein 表示,在大多数部署中,ai 只是数十万种不同工作负荷的一种。尽管英特尔提供了 cpu 和专用 ai 加速器(通过 habana labs),但由于工作负荷种类很多,从功耗和投资角度来看,xeon scalable(cpu)平台可以说是最高效的产品。
klein 说:“英特尔的 ai 策略建立在 xeon scalable 处理器的基础之上,xeon scalable 内部做了 ai 优化,并针对机器学习和深度学习进行了大量软件优化。”
提高效率
尽管 gpu 等 ai 加速器能耗很大,但进行 ai 处理时,它们的高计算效率可以降低总能耗。ai 处理在数据中心所占比例越来越高,但数据中心日常处理的负荷种类仍然多种多样。
加速器使 ai 处理受益最大,cpu 则继续在超大规模和企业数据中心市场赢得席位,因为 cpu 应用更加灵活。随着 ai 应用的不断扩大,以及新的 5g 应用产生更多的非结构化数据,数据中心的能耗不太可能很快下降。


SMPSIGBT在各种变换器应用中优于MOSFET
Linux中如何比较两个文件的差异?
新型非联网2.4GHz技术满足低成本无线设备的应用
企先锋利用透视型OLED照明开发出了刹车灯
软件设计开发性能优化的十种手段(取与舍)
为什么AI 加速器要减少 GPU 等高能耗硬件的使用?
Qorvo推出两款氮化镓8瓦功率放大器模块
中美成立半导体产业技术和贸易限制工作组以重要领域的卡脖子问题
Imagination推出首款实时嵌入式RISC-V CPU- RTXM-2200
索尼发布两款全新M4/3传感器,均为M4/3系统设计
新能源汽车的种类众多,他们的区别是什么
有驾无车人群正在扩大,互联网租车习惯正在养成
电源调试过程中的心得体会
小米VR一体机评测 价格是最大惊喜
提前布局下一代市场主流电视产品成为彩电行业突破的关键点?
电动单座调节阀的应用及优点
EDA产业营收创下历史新高,全球EDA收入增长15.1%
无人机在冬天保养的方法你知道吗
PCB布线经验总结
AR教育之技能实操培训