Amazon EC2 Inf2实例正式可用 助力低成本、高性能的生成式AI推理

深度学习(dl)的创新,特别是大语言模型(llm)的快速发展,已经席卷了整个行业。深度学习模型的参数已从数百万增加到数十亿,为我们呈现了越来越多激动人心的新能力。它们正在催生新的应用,如生成式ai或医疗保健和生命科学的高级研究。亚马逊云科技一直在芯片、服务器、数据中心互连和软件服务等多个方面创新,加速深度学习工作负载的大规模应用。
亚马逊云科技在2022 re:invent 全球大会上,以其最新的自研机器学习推理芯片amazon inferentia2为基础,发布了amazon ec2 inf2系列实例的预览版。amazon ec2 inf2类型实例专门针对全球大规模运行高性能深度学习推理应用程序,为部署在ec2上的生成式ai应用提供最佳性价比,其中包含 gpt-j或开放式预训练transformer(opt)语言模型。
现在,亚马逊云科技宣布amazon ec2 inf2实例正式可用。
inf2实例是amazon ec2上首个推理优化的实例,支持可扩展的分布式推理,可实现多个inferentia2芯片之间的超高速连接。用户可以在inf2实例中跨多个芯片高效部署具有数千亿个参数的模型。与amazon ec2 inf1实例相比,inf2实例的吞吐量提高4倍,延迟降低10倍。
新inf2实例的亮点
inf2实例目前有四种可用实例类型,最高扩展至12个amazon inferentia2芯片和192个vcpu配置。在bf16或fp16数据类型下,它们能够提供2.3 petaflops的综合计算能力,并具有芯片间超高速neuronlink互连的功能。neuronlink可在多个inferentia2芯片上扩展大模型,避免通信瓶颈,实现更高性能的推理。
每个inferentia2芯片内有32 gb的高带宽内存(hbm),最高配置的 inf2 实例可提供高达384 gb的共享加速器内存,总内存带宽为9.8 tb/s。对于需要大内存支持的的大型语言模型而言,这种带宽对于支持模型推理尤为重要。
基于专门为深度学习工作负载而构建的 amazon inferentia2芯片的 amazon ec2 inf2,相比同类实例,单位功率性能高出了50%。
amazon inferentia2的创新之处
与亚马逊自研机器学习训练芯片 amazon trainium类似,每个amazon inferentia2芯片都配有两个经过优化的neuroncore-v2引擎、高带宽内存(hbm)堆栈和专用的集体计算引擎,以便在执行多加速器推理时实现计算与通信的并行。
每个neuroncore-v2都有专为深度学习算法构建的标量、向量和张量三种引擎,其中张量引擎针对矩阵运算进行了优化;标量引擎针对relu(修正线性单元)函数等元素性操作进行了优化;向量引擎针对批处理规范化或池化等非元素向量运算进行了优化。
以下是amazon inferentia2芯片和服务器硬件其他创新总结:
数据类型——amazon inferentia2 支持多种数据类型,包括 fp32、tf32、bf16、fp16 和 uint8,用户可以为工作负载选择最合适的数据类型。它还支持新的可配置 fp8(cfp8) 数据类型,该数据类型特别适用于大模型,因为它减少了模型的内存占用和 i/o 要求。
动态执行和动态输入形状——amazon inferentia2 具有支持动态执行的嵌入式通用数字信号处理器 (dsp),因此无需在主机上展开或执行控制流运算符。amazon inferentia2 还支持动态输入形状,这些形状对于具有未知输入张量大小的模型(例如处理文本的模型)至关重要。
自定义运算符——amazon inferentia2支持用c++语言编写的自定义运算符。neuron自定义c++运算符使用户能够编写在neuroncore上天然运行的c++自定义运算符。用户可以使用标准的 pytorch自定义运算符编程接口将 cpu 自定义运算符迁移到 neuron 并实现新的实验运算符,所有这些都无需对 neuroncore 硬件有任何深入了解。
neuronlink v2——inf2实例是amazon ec2类型中首个将 neuronlink v2 用于推理优化的实例,neuronlink v2 为inferentia2芯片间的提供超高速连接,加强分布式推理性能。neuronlink v2使用all-reduce等聚合通信(cc)运算符,将高性能推理管道扩展到所有的推理芯片上。
新inf2实例现已可用
用户可在亚马逊云科技美东(俄亥俄州)和美东(北弗吉尼亚州)地区启动inf2实例,以按需、预留和竞价实例或savings plan方式调用。用户仅需为其实际使用的服务付费。如需了解更多相关信息,请访问amazon ec2定价网站。
inf2实例可使用亚马逊云科技深度学习镜像进行部署,并可通过amazon sagemaker、amazon elastic kubernetes service(amazon eks)、amazon elastic container service(amazon ecs)和amazon parallelcluster等托管服务调用。
如需了解更多信息,请访问amazon ec2 inf2实例页面,并将相关反馈发送给amazon re:post for ec2;或垂询您的amazon support联系人。


5G蕴含万亿机遇:诺基亚能否能抓住机遇逆袭华为
高通明年上半年推5G手机,四重因素驱动AI发展
秋日经典金曲大赏 这部手机惯坏你的“金耳朵”
除了Mate9支持Alexa语音助手 华为P10也支持三月发布
必达安保系统R100MT(00)门锁简介
Amazon EC2 Inf2实例正式可用 助力低成本、高性能的生成式AI推理
高温铂铑热电偶不稳定的原因及解决办法
德尔森IOT物联网智能传感器
东芝内存芯片业务或走单独IPO渠道
基于CKS32F103RCT6开发的智能控制器
华为MateBook13和MacBookAir哪个最好
百度网盘面临的囧境是否能被这次奇招打破
行业观察:ARM处理器强势进攻NB,x86阵营伤势如何?
DALI 48V驱动
你会考虑为你的手机购买一张512GB的存储卡吗?
高精度电子秤0.01g
户外LED显示屏防水箱体的作用和需求有哪些呢?
三星宣布全球首座专门为EUV极紫外光刻工艺打造的代工厂开始量产
金属卤化物灯是什么材料_金属卤化物灯如何制作的
当下社会的魏德米勒端子必不可少,它的优势是什么