浪潮信息智能业务生产创新平台提升大模型算力平台使用效率

日前,2023全球人工智能产品应用博览会在苏州开幕。浪潮信息智能业务生产创新平台aistation凭借领先的资源调度与平台管理能力,有效提升大模型算力平台使用效率,荣获智博会核心奖项“产品金奖”。此次获奖,不仅体现了aistation在大模型算力与业务支撑方面的领先性,也体现了产业对大模型算力平台效率的高度关注。
提升大模型算力平台使用效率
当前,以大模型为代表的生成式ai技术正在加速发展并革新各行业智能转型路径。生成式ai创新需要基于海量数据集,在拥有成百上千加速卡的ai服务器集群上对千亿级参数的ai大模型进行分布式训练。如何发挥大模型算力平台效能、抑制性能损耗,以高效完成ai大模型的训练部署,已成为aigc时代的新挑战。
作为专为人工智能开发和部署提供全流程支持的端到端平台,aistation能够以强大的资源调度和管理能力助力客户加速ai大模型开发与部署,通过对计算资源、数据资源、深度学习软件栈资源进行统一管理,有效提升大模型ai算力集群的使用效率。
一站式管理、毫秒级调度,集群利用率达70%
大模型训练需要构建包含计算、网络、存储、框架等在内的系统性分布式训练环境,传统的分散化管理不仅门槛高、效率低,且缺少针对性优化的整体调度系统,导致大模型计算平台的整体协同性较差,训练算力效率低。
针对分布式训练计算规模大、系统性强的特点,aistation实现了异构算力集群的统一池化管理,通过自研分布式任务自适应系统将训练底层的计算、存储、网络环境自动化配置,并提供自定义修改基本超参数功能。通过多种资源高效管理和调度策略,aistation能实现万卡集群的毫秒级调度,提升整体资源利用率到70%以上。
同时,aistation集成主流的大模型训练框架,依托容器化技术,能够将运行环境、框架适配过程标准化、模块化,支持秒级构建运行环境,保障ai开发和ai业务的高效运行。
瓶颈优化、稳健容错,全流程加速大模型训练
针对大规模分布式训练过程中遇到的算力网络搭建、数据加速、网络通信优化等瓶颈,aistation通过镜像分发加速、数据缓存加速、网络拓扑调度、资源动态弹性伸缩等特性,在提高计算资源利用率的同时加速整个训练过程。其中,aistation通过数据缓存机制可让模型训练效率获得200%-300%的提升,并能够根据节点的数据缓存情况自动调度训练任务,避免训练数据重复下载,节省数据加载时间,与自研调度系统配合后,分布式训练线性加速比能够高达0.9,有效抑制多节点协同的性能损耗。
健壮性与稳定性是目前高效完成大模型训练的强要求。对此,aistation通过提供全生命周期管理、故障容错、集群监控运维等一体化能力,能够实现训练异常和故障的全面检测和自动处理,有效缩短断点续训时间,降低复杂度,以持续稳定的训练降低大模型训练成本和周期。
高效调用,释放大模型应用价值
针对大模型训练完成后的应用部署,aistation实现训练和推理的全打通,加快模型应用落地。针对大模型实际应用中的调用突发性,aistation可根据推理服务资源需求的变化及时调整资源配给,根据实时业务的请求量实现秒级服务扩缩容,可支持百万级高并发的大模型ai推理服务场景,服务响应平均延迟低于1ms,突发的访问高峰的响应效率提升50%。
目前,aistation已经在2457亿参数的“源”大模型训练实践中得到有效验证,支撑 “源”大模型的训练算力效率达44.8%,高于gpt-3的21.3%。同时,某大型商业银行基于aistation打造的并行运算集群,凭借领先的大规模分布式训练支撑能力,荣获2022idc“未来数字基础架构领军者”奖项。未来, aistation平台将持续为各行业的大模型开发与部署提供高效的算力平台管理能力,加速aigc技术迭代革新。

物联网应用的首选你觉得是什么
MEMS的五大应用领域介绍
澜起科技津逮CPU与VMware完成兼容性认证
智慧粮仓:手有余粮,心头不慌
可高效率地提供输出电流,并任意地设定输出电压的降压DC/DC转换器
浪潮信息智能业务生产创新平台提升大模型算力平台使用效率
【智慧工地解决方案】工业物联网网关开发与整体解决方案架构
HCT:20%智能手机使用双核处理器
GTC 2023上黄仁勋谈AI ChatGPT仅是一个起点NVIDIA将AI引入各行各业
可编程自动化控制器PAC控制方案的优势与要求研究
简述如何利用Virtex-5 LXT应对串行背板接口设计挑战
单片机流水灯汇编语言源代码大全(六款流水灯汇编语言源代码)
不同规格的足球场应该用什么样的照明灯,哪种LED品牌好
贸泽电子正式推出了Active-Semi全系列产品
专门应用于IoT领域的超低功耗的安全无线SoC解决方案
加码数据库创新 瀚高生态大会在青岛掀起数智浪潮
没落贵族 黑莓手机走过的14年
功率放大器在光纤白光干涉的微振动绝对测量中的应用
趋势!互联网女皇”2018互联网报告10大最新发现
兴科半导体预计明年进入投产阶段