据外媒报道,ibm在其新发表的论文《分布式深度学习自动语音识别策略》(distributed deep learning strategies for automatic speech recognition)中提出了一种分布式处理架构,该架构可以在流行的开源基准测试中使训练速度提升15倍,并且不会损失准确性。该论文作者表示,将其部署在包含有多个显卡的系统上,可以将训练时长从几周的时间减少到几天。
这项工作计划于5月在ieee声学、语音和信号处理国际会议(icassp)上公布。
作为贡献研究人员wei zhang、xiaodong cui和brian kingsbury在博客中写道:“训练像苹果的siri、谷歌智能助理和亚马逊的alexa那样的自动语音识别(automatic speech recognition,asr)系统,需要复杂的编码系统将语音转换为深度学习系统和解码系统能够理解的功能,这些系统可以将输出转换为人类可读的文本。更加复杂的模型将使大规模的训练更加困难。”
该团队的并行化解决方案需要提高批量大小,即可以一次处理的样本数量,而不是不加选择地处理,否则就会影响准确性。他们将批量大小增加到2560个,同时应用一种被称为异步分散并行随机梯度下降(adpsgd)的分布式深度学习技术。
正如研究人员解释的那样,大多数深度学习模型要么采用同步优化方法,这种方法受到缓慢系统的不成比例的影响,要么采用基于参数服务器(ps)的异步方法,这种方法往往会导致模型不太精确。相比之下,adpsgd(ibm于2018年在一篇论文中首次详述的)是异步和分散的,它保证了模型准确性的基线水平,并为某些类型的优化问题提供了加速。
在测试中,该论文的作者表示,adpsgd将asr作业的运行时间,从单个v100图形处理器系统上的一周缩短到32图形处理器系统上的11.5小时。adpsgd留给未来工作算法的时间,可以处理更大的批量和系统优化更强大的硬件。
zhang、cui和kingsbury写道:“在半天内完成训练工作是可取的,因为它使研究人员能够快速迭代开发新的算法。这也可以使开发人员快速调整现有模型以适应他们的应用,尤其是在需要大量语音以实现稳健性和可用性所需的高精度的自定义用例中。”
训练自然语言理解模型不仅需要强大的硬件基础以及数千小时语音和数以百万的文本单词的语料库,而且整个训练过程中所耗费的时间也是非常漫长的。可以说ibm提出的分布式处理架构大大减轻了计算负担。
高通发布骁龙865支持的8K录制视频,拥有每秒20亿像素处理速度
【产品更新】基于最新P4可编程芯片的下一代汇聚分流设备(用于5G)
DC-DC转换器热仿真电路
谷歌全新AI架构,单芯片每秒1000万亿次运算
一维X向运动压电平台P66A.X30的特性、应用及参数
IBM新技术大幅缩短语音识别系统训练时间
Velodyne Lidar传感器因高性能而入选
华为Mate 60 Pro真麒麟王者归来!
人脸识别技术在智能家居中有多重要
微鹅科技余峰:追求成本的降低,对于无线充电从业者而言是双刃剑
AGV机器人市场前景良好,但还有这些制约发展问题丞待解决!
腾讯官方Android QQ上线 性能稳定获好评
中国核聚变研究获重大突破 或将解决世界能源问题
音叉料位开关好坏的衡量标准
利用VR技术学习是否能够大幅提升我们的记忆力
智能锁真的可以帮助提高家中的安全性吗
IEEE-488总线工作方式/接口结构/使用约定
联想YOGA S940笔记本电脑曝光搭载英特尔i7-8565U支持AI人脸识别
江苏省考试院推出“VR全景看考场”避免学生考试延误
AC输入整流滤波电路原理