探究超大Transformer语言模型的分布式训练框架

nvidia megatron 是一个基于 pytorch 的框架,用于训练基于 transformer 架构的巨型语言模型。本系列文章将详细介绍megatron的设计和实践,探索这一框架如何助力大模型的预训练计算。 上篇主要介绍了大模型训练的发展趋势、nvidia megatron的模型并行设计,本篇将承接上篇的内容,解析megatron 在nvidia dgx superpod 上的实践。
优化的分布式集群架构:nvidia dgx superpod
有了高效的分布式训练框架,自然也需要优化的分布式训练集群。
nvidia dgx superpod 便是 nvidia 推出的一个分布式集群的参考架构,最新一代是基于nvidia dgx a100 和nvidia hdr 200gb/s connectx-6 hcas组建,旨在帮助ai 研究人员快速搭建一套强大、灵活、高效的系统,以满足工业界日益复杂、多变的模型对计算资源不同程度的需求。尤其对于超大语言模型预训练这一复杂场景,dgx superpod 架构尤为重要。
dgx superpod 采用模块化的设计,支持不同规模大小的设计。一个标准的superpod 由140 台dgx a100和三层infiniband 交换机通过胖树结构全互联起来。每台dgx a100 配有8个200gb/s 的高速计算网,并配有2个200gb/s的高速存储网,采用计算和存储网络分离的方案。
多个pod之间可以通过核心层交换机直连起来,可以支持多达560 台dgx a100的互联规模。
更多关于nvidia dgx superpod 架构的详细设计,请参阅下列连接中的白皮书:https://images.nvidia.com/aem-dam/solutions/data-center/gated-resources/nvidia-dgx-superpod-a100.pdf
nvidia megatron 在 dgx superpod 上的实践
基于dgx superpod 的megatron实践在不同大小的模型上,都表现出了很好的计算效率。
模型从1.7b 到1t ,训练规模从32 卡到3072 卡。
基于gpt-3 175b 模型的训练,采用如下的配置:
128 台 dgx a100,总共 1024张 a100
tensor 并行度:8;pipeline 并行度:16; 数据并行度:8
全局batch size : 1536;micro-batch size: 1
在如此大的训练规模下,gpu 仍可达到44% 左右的计算效率,在规模和效率上,都远远超过已有的公开结果。
详细内容请参考以下链接:
megatron repro: https://github.com/nvidia/megatron-lm
gpt3-175b training scripts: https://github.com/nvidia/megatron-lm/blob/main/examples/pretrain_gpt3_175b.sh
总结
1. 大模型是大势所趋。
2. 大规模分布式训练是训练大模型的必须。
3. nvidia megatron 是开源的、软硬协同设计的训练框架,专为transformer-based的超大语言模型设计。
4. nvidia dgx superpod 是开放的集群参考设计架构,专为大规模分布式训练而准备。
5. megatron 优化的tensor模型并行:用于intra-transformer 层,可以高效地执行在hgx based的系统上。
6. megatron优化的 pipeline 模型并行:用于inter-transformer 层,可以有效地利用集群中多网卡的设计。
7. 数据并行的加持,可以扩展到更大规模、训练更快。
8. gpt-3 175b 的大模型,在1024 张 a100上可达到44%左右的计算效率。
9. nvidia megatron 的设计和实践,已广泛用于学术界和工业界。


TT Electronics 的SMD电阻器可承受高浪涌条件
数据分析师的必备的四个技能
除了触摸屏之外手机产业链还会扩展更多的交互方式
UPS电源中逆变器的作用和要求
“游艇式”设计的欧陆GT特别版车型官图发布,全新一代欧陆有望于9月正式亮相!
探究超大Transformer语言模型的分布式训练框架
经纬辉开:收购诺思微系统,布局5G射频滤波器产业
AWE 2019火热开启 小豹翻译棒首秀成焦点
生物制药电力监控解决方案
学会Linux设备树dts移植
锂电池CCD检测设备在涂布中的应用案例
华为云灾备方案,如何为数据上“社保”
【干货】示波器扒串口数据
海信Genesis机芯液晶电视开关电源原理及故障检修(一)
发电机运行时的监测和注意事项
华为开发者大会2021日程
国内制造业转型关键技术——机器人
关于码垛机器人的应用,它的工艺流程是怎样的
中国移动和华为在北京联合召开5G-Advanced创新产业峰会
Altera推出业界带宽最大的28nm中端FPGA