十年前,aws(amazon web services)发布了首个采用 nvidia m2050 gpu 的实例。当时,基于 cuda 的应用主要专注于加速科学模拟,ai 和深度学习还遥遥无期。
自那时起,aw 就不断扩充云端 gpu 实例阵容,包括 k80(p2)、k520(g3)、m60(g4)、v100(p3 / p3dn)和 t4(g4)。
现在,已全面上市的全新 aws p4d 实例采用最新 nvidia a100 tensor core gpu,开启了加速计算的下一个十年。
全新的 p4d 实例,为机器学习训练和高性能计算应用提供 aws 上性能与成本效益最高的 gpu 平台。与默认的 fp32 精度相比,全新实例将 fp16 机器学习模型的训练时间减少多达 3 倍,将 tf32 机器学习模型的训练的时间减少多达 6 倍。
这些实例还提供出色的推理性能。nvidia a100 gpu 在最近的 mlperf inference 基准测试中一骑绝尘,实现了比 cpu 快 237 倍的性能。
每个 p4d 实例均内置八个 nvidia a100 gpu,通过 aws ultraclusters,客户可以利用 aws 的 elastic fabric adapter(efa)和 amazon fsx 提供的可扩展高性能存储,按需、可扩展地同时访问多达 4,000 多个 gpu。p4d 提供 400gbps 网络,通过使用 nvlink、nvswitch、nccl 和 gpudirect rdma 等 nvidia 技术,进一步加速深度学习训练的工作负载。efa 上的 nvidia gpudirect rdma 在服务器之间可通过 gpu 传输数据,无需通过 cpu 和系统内存,从而确保网络的低延迟。
此外,许多 aws 服务都支持 p4d 实例,包括 amazon elastic container services、amazon elastic kubernetes service、aws parallelcluster 和 amazon sagemaker。p4d 还可使用所有 ngc 提供的经过优化的容器化软件,包括 hpc 应用、ai 框架、预训练模型、helm 图表以及 tensorrt 和 triton inference server 等推理软件。
目前,p4d 实例已在美国东部和西部上市,并将很快扩展到其他地区。用户可以通过按需实例(on-demand)、savings plans、预留实例(reserved instances)或竞价型实例(spot instances)几种不同的方式进行购买。
gpu 云计算发展最初的十年,已为市场带来超过 100 exaflops 的 ai 计算。随着基于 nvidia a100 gpu 的 amazon ec2 p4d 实例的问世,gpu 云计算的下一个十年将迎来一个美好的开端。
nvidia 和 aws 不断帮助各种应用突破 ai 的界限,以便了解客户将如何运用 ai 强大的性能。
从应用角度对NB-IoT进行分析研究,归纳出了NB-IoT应用架构
霍尔元件在门磁开关中的应用
详解:汽车电子技术之汽车仪表盘MCU
devart:Skyvia数据集成(下)
中国传感器技术专利统计分析
首个采用NVIDIA M2050 GPU的实例 开启GPU云计算下个十年
can接口和485接口区别
每小时打包700箱 亚马逊机器人可以替换上千名员工
目标检测领域的一些共性问题总结
基于RFID射频卡的超市购物结算系统项目开发
机械式激光雷达结构设计 激光雷达的工作原理
Peakago微型笔记本,重量只有539克
如何降低直流电源电压?
固态电解质引入特殊官能团实现高电压锂金属固态电池
关于智慧城市新能源技术发展的趋势分析
5G大规模布局时代下运营商该如何抓住机遇打造数字经济
特斯拉为实现年销目标,要用更多的人手来增加产能
那什么是车规级MCU芯片,它跟普通芯片又有何不同?
数码相机与传统相机的区别是什么?
ofo共享单车新发布电子围栏技术要求