将AI超级计算带给客户

ian finder,加速高性能计算基础架构高级项目经理
当前,使用大规模ai模型执行大量任务的趋势正在改变ai的构建方式。在微软build 2020上,我们利用azure最先进的ai超级计算和支持下一代ai的新型大规模ai模型,分享了我们“ai at scale”的愿景。大规模模型的优势在于,仅需使用ai超级计算,基于海量数据,对其进行一次大规模训练,而后模型就能通过自身“微调”,基于更小的数据集及资源来处理不同的任务、应对不同的领域。模型参数越多,就越能更好地捕获数据之间的细微差别。例如,我们的turing natural language generation(t-nlg)模型具有170亿参数,能够理解语言,因此可以在第一时间回答问题或总结首次看到的文件。此类自然语言模型,比一年前最先进的模型大得多,与早期以图像为中心的模型相比,更是大出好几个数量级,而且支持bing、word、outlook和dynamics中的任务。
为训练此类大规模的模型,需要将具备专用ai加速器的数百台机器组合成为大型集群,这些加速器通过机器内部和机器之间的高带宽网络互连。为使所有微软产品具备全新自然语言生成和理解的能力,并支持openai完成“建立安全的通用ai”的使命,我们不断在azure中构建这样的集群。我们最新的集群具备强大的聚合计算能力,因此被称为ai超级计算机,其中有一台专为openai打造,已跻身全球前五大公开发布的超级计算机。得益于这台超级计算机,openai在5月发布了其1750亿参数gpt-3模型,该模型可完成多种未进行过针对性训练的任务,如诗歌写作或翻译。
我们在管理大规模计算集群、领先网络设计和软件堆栈(包括azure机器学习、onnx运行时和其他azure ai服务)时,所采取的方法与我们的ai at scale 战略保持高度一致。一路以来的创新将使azure能够更好地满足客户各种规模的ai需求。例如,在ndv2虚拟机系列中,azure是第一个,也是唯一一个提供nvidia v100 tensor core gpu虚拟机集群的公有云,这些集群通过高带宽、低延迟的nvidia mellanox infiniband网络互连。这种创新如同将高端赛车行业所开创的汽车技术,应用于我们日常驾驶的普通汽车。
前沿创新规模空前
openai首席执行官sam altman 表示:“若要将ai发展成为通用智能,那么在某种程度上就需要强大的系统来训练日益强大的模型。如今我们终于拥有了所需的算力。azure ai及其超算能力为我们提供了领先的系统,让我们能够加速创新进程。”
通过不断创新,azure宣布推出全新nd a100 v4虚拟机系列,这是我们迄今为止功能最强大、可扩展性最强的ai虚拟机。该虚拟机可根据需求,通过数百台虚拟机调用八至数千个互连nvidia gpu。
最基本的nd a100 v4 虚拟机系列由一台虚拟机和八个nvidia ampere a100 tensor core gpu组成。但如同人脑由相互连接的神经元组成一样,nd a100 v4集群可以扩展到数千个gpu,且每台虚拟机都具有1.6 tb互连带宽,这是前所未有的。每个gpu均具有专属200 gb/s nvidia mellanox hdr infiniband连接,兼容所有拓扑结构。数十、数百甚至数千个gpu均可连接到同一个mellanox infiniband hdr集群进行工作,从而实现任何级别的ai目标。由于专用的gpu互连带宽比任何其他公有云产品高16倍,因此可以更快地实现任何ai目标,如从零开始训练模型、继续使用自己的数据进行训练或针对特定任务进行微调等。
nd a100 v4虚拟机系列由内置全新azure amd rome的平台提供支持,该平台所有主要系统组件均符合最新的硬件标准,如pcie gen4。pcie gen 4和nvidia第三代nvlink架构可为每台虚拟机实现最快的gpu互连,使数据在系统中的传输速度提升2倍以上。
大多数客户无需开展任何技术工作,即可将其计算性能提升至基于上一代nvidia v100 gpu的系统的2至3倍。如果客户使用具备结构化稀疏加速、高精度tensor core核心和多实例gpu(mig)功能的全新a100,可将性能提高多达20倍。
nvidia加速计算总经理兼副总裁ian buck表示:“azure利用nvidia最先进的计算和网络功能构建了一个令人难以置信的大型云端ai平台。其具备的弹性架构,可将nvidia a100 gpu上的单一分区扩展至数千个通过nvidia mellanox infiniband互连的a100 gpu。得益于该弹性架构,azure客户可运行全球最高要求的ai工作负载。”
nd a100 v4 虚拟机系列运用vm scale set等azure核心可扩展模块,可对任何规模的集群进行自动、动态且透明的配置,让所有人在任何地方都可以实现各种规模的ai,甚至可以在数分钟内按需对ai超级计算机进行实例化。随后,便可使用azure机器学习服务,独立访问虚拟机或启动、管理整个集群的训练任务。
nd a100 v4虚拟机系列和集群目前可供预览,之后将成为azure产品组合中的标准产品,让所有人都能够在云端挖掘ai at scale的潜力。

ILIFE智意X785扫地机器人值不值得购买
基于S3C44B0X的WAVE音频文件播放
为旌科技与清华大学苏州汽车研究院签订战略合作并设立联合研发中心
过电流保护是变压器的主保护吗?
基于SOPC的车辆息线控制器设计方案
将AI超级计算带给客户
商务部、海关总署决定对镓、锗相关物项实施出口管制开始生效
中控智慧科技指纹识别考勤机K28介绍
华为P20 Pro是史上华为在欧洲最畅销的设备
惠威科技T200MKII音响评测 对高品质声音的执着追求和对制作细节的精益求精
小米发布了隔空无线充电技术,让无线充电又一次登上了热榜
三星、西数率先发难,存储真要涨价了?
不止美「图」 ,更要美「人」,看美图如何将变美由“虚”向“实”
国内5G套餐价格曝光!190元是最低消费,那还买5G手机吗?
魅族Pro7来袭,你猜猜用什么处理器
5G消息 安卓将标配 苹果可用小程序
工业锅炉设备远程监控运维
七腾机器人亮相新疆石化展,助力西部石油化工产业智能化发展
无线电频率新标准对全球天气预报有什么影响
CeresDB 1.0正式发布,Rust高性能云原生时序数据库