科大讯飞新一代语音识别系统解读

今天，我们就为大家从技术上揭秘科大讯飞的新一代语音识别系统。
众所周知，自2011年微软研究院首次利用深度神经网络（deep neural network， dnn）在大规模语音识别任务上获得显著效果提升以来，dnn在语音识别领域受到越来越多的关注，目前已经成为主流语音识别系统的标配。然而，更深入的研究成果表明，dnn结构虽然具有很强的分类能力，但是其针对上下文时序信息的捕捉能力是较弱的，因此并不适合处理具有长时相关性的时序信号。而语音是一种各帧之间具有很强相关性的复杂时变信号，这种相关性主要体现在说话时的协同发音现象上，往往前后好几个字对我们正要说的字都有影响，也就是语音的各帧之间具有长时相关性。
图1：dnn和rnn示意图
相比前馈型神经网络dnn，循环神经网络（recurrent neural network， rnn）在隐层上增加了一个反馈连接，也就是说，rnn隐层当前时刻的输入有一部分是前一时刻的隐层输出，这使得rnn可以通过循环反馈连接看到前面所有时刻的信息，这赋予了rnn记忆功能，如图1所示。这些特点使得rnn非常适合用于对时序信号的建模，在语音识别领域，rnn是一个近年来替换dnn的新的深度学习框架，而长短时记忆模块（long-short term memory， lstm）的引入解决了传统简单rnn梯度消失等问题，使得rnn框架可以在语音识别领域实用化并获得了超越dnn的效果，目前已经在业界一些比较先进的语音系统中使用。
除此之外，研究人员还在rnn的基础上做了进一步改进工作，图2是当前语音识别中的主流rnn声学模型框架，主要还包含两部分：深层双向lstm rnn和ctc（connectionist temporal classification）输出层。其中双向rnn对当前语音帧进行判断时，不仅可以利用历史的语音信息，还可以利用未来的语音信息，可以进行更加准确的决策;ctc使得训练过程无需帧级别的标注，实现有效的“端对端”训练。
图2：基于lstm rnn的主流声学模型框架
目前，国际国内已经有不少学术或工业机构掌握了rnn模型，并在上述某个或多个技术点进行研究。然而，上述各个技术点单独研究时一般可以获得较好的结果，但是如果想将这些技术点融合在一起的时候，则会碰到一些问题。例如，多个技术结合在一起的提升幅度会比各个技术点幅度的叠加要小。又例如，传统的双向rnn方案，理论上需要看到语音的结束（即所有的未来信息），才能成功的应用未来信息来获得提升，因此只适合处理离线任务，而对于要求即时响应的在线任务（例如语音输入法）则往往会带来3-5s的硬延迟，这对于在线任务是不可接受的。再者，rnn对上下文相关性的拟合较强，相对于dnn更容易陷入过拟合的问题，容易因为训练数据的局部不鲁棒现象而带来额外的异常识别错误。最后，由于rnn具有比dnn更加复杂的结构，给海量数据下的rnn模型训练带来了更大的挑战。
鉴于上述问题，科大讯飞发明了一种名为前馈型序列记忆网络fsmn（feed-forward sequential memory network）的新框架。在这个框架中，可以把上述几点很好的融合，同时各个技术点对效果的提升可以获得叠加。值得一提的是，我们在这个系统中创造性提出的fsmn结构，采用非循环的前馈结构，在只需要180ms延迟下，就达到了和双向lstm rnn相当的效果。下面让我们来具体看下它的构成。
图3：fsmn结构示意图
图4：fsmn中隐层记忆块的时序展开示意图（左右各看一帧）
图3即为fsmn的结构示意图，相比传统的dnn，我们在隐层旁增加了一个称为“记忆块”的模块，用于存储对判断当前语音帧有用的历史信息和未来信息。图4画出了双向fsmn中记忆块左右各记忆一帧语音信息（在实际任务中，可根据任务需要，人工调整所需记忆的历史和未来信息长度）的时序展开结构。
从图中我们可以看出，不同于传统的基于循环反馈的rnn，fsmn记忆块的记忆功能是使用前馈结构实现的。这种前馈结构有两大好处：首先，双向fsmn对未来信息进行记忆时，没有传统双向rnn必须等待语音输入结束才能对当前语音帧进行判断的限制，它只需要等待有限长度的未来语音帧即可，正如前文所说的，我们的双向fsmn在将延迟控制在180ms的情况下就可获得媲美双向rnn的效果;其次，如前所述，传统的简单rnn因为训练过程中的梯度是按时间逐次往前传播的，因此会出现指数衰减的梯度消失现象，这导致理论上具有无限长记忆的rnn实际上能记住的信息很有限，然而fsmn这种基于前馈时序展开结构的记忆网络，在训练过程中梯度沿着图4中记忆块与隐层的连接权重往回传给各个时刻即可，这些连接权重决定了不同时刻输入对判断当前语音帧的影响，而且这种梯度传播在任何时刻的衰减都是常数的，也是可训练的，因此fsmn用一种更为简单的方式解决了rnn中的梯度消失问题，使得其具有类似lstm的长时记忆能力。
另外，在模型训练效率和稳定性方面，由于fsmn完全基于前馈神经网络，所以不存在rnn训练中因mini-batch中句子长短不一需要补零而导致浪费运算的情况，前馈结构也使得它的并行度更高，可最大化利用gpu计算能力。从最终训练收敛的双向fsmn模型记忆块中各时刻的加权系数分布我们观察到，权重值基本上在当前时刻最大，往左右两边逐渐衰减，这也符合预期。进一步，fsmn可和ctc准则结合，实现语音识别中的“端到端”建模。
最后，和其他多个技术点结合后，讯飞基于fsmn的语音识别框架可获得相比业界最好的语音识别系统40%的性能提升，同时结合我们的多gpu并行加速技术，训练效率可达到一万小时训练数据一天可训练收敛。后续基于fsmn框架，我们还将展开更多相关的研究工作，例如：dnn和记忆块更深层次的组合方式，增加记忆块部分复杂度强化记忆功能，fsmn结构和cnn等其他结构的更深度融合等。在这些核心技术持续进步的基础上，科大讯飞的语音识别系统将不断挑战新的高峰！

爆！一加5T官网售罄_一加6将在二季度正式亮相
研华科技推出基于Core处理器的嵌入式板卡产品
科技语言解读：功率半导体、分立器件和集成电路的细节解析
大数据时代如何确保重要数据不被泄露？
为打造极致VR沉浸式体验，看三巨头如何加码虚拟现实技术
科大讯飞新一代语音识别系统解读
Facebook正在研究神经网络芯片的新平台
物联网智能技术助力全球智能建筑转型升级
活体叶面积测定仪的功能特点及技术参数
紫光集团成都3D堆叠芯片存储工厂三期项目建成后将月产30万片
国芯思辰｜应用于船舶工业数据采集仪的国产高精度电压基准源GREF1025，兼容美信MAX6070，工作电流仅230μA
2018百易奖网络投票火热进行中！截止时间12/7
纳米传感器：决胜智能化战争的关键
KAUST大学研发出低成本24 GHz毫米波雷达
“猎鹰9”爆炸后 spacex火箭发射开启15日将卫星送入太空
ORCAD PSPICE 9中新元件的创建方法
无人机通信模块在消防远程通信指挥中应用研究
电脑处理器最高几核_如何查看电脑属于几核（方法步骤教程）
小型真空干燥箱的结构及原理
工业场景中的NAT网关：使用功能与应用场景