Facebook发布全卷积神经网络语音识别模型,开源语音处理深度学习工具包

在语音识别领域先进的神经网络一般使用rnn来构建声学或者语言模型,并基于特征抽取的方式来进行抽取梅尔滤波器特征或者倒谱系数。但在最近的研究工作中,facebook的研究人员提出了完全基于卷积神经网络的全卷积语音识别模型,充分利用了在声学模型和语言模型方面的最新进展。这一全卷积神经网络通过端到端的训练可以直接从原始波形预测出语言字符,移除了特征抽取的过程。同时利用一个外部的卷积语言模型来进行单词解码。这一模型在多个数据集上都取得了优异的表现。
模型
整个模型由四部分组成,分别是卷积前端、声学模型、语言模型和集束搜索的解码器(beam-search)组成,如下图所示。
在可学习的前端中,原始音频首先输入到一个宽度为2的卷积中,用于模仿梅尔滤波器特征中的前处理步骤。随后应用了宽度为25ms的k复卷积滤波器。随后利用平方取绝对值并通过低通滤波器,其宽度为25ms步长为10ms。最后利用对数压缩,并对每个通道进行了均方归一化。紧随其后的是声学模型,包含了线性门的卷积神经网络,同时使用了dropout来实现正则化。这一模型的目的在于直接预测出字母。在随后的语言模型中,研究人员利用了gcnn-14b,其中包含了14个卷积残差模块和逐渐增长的通道数,并利用了线性门控单元作为激活函数。语言模型的主要目的在于为备选的句子输出打分,这一模型允许更大的上下文。最后,基于集束搜索的解码器用于生成最合适的句子输出。
其工作的过程在于最大化上面的表达式。
工具
这一模型的实现使用了facebook最新开源的两个工具:其中使用了wav2letter建立声学模型,fairseq建立了语言模型。
fairseq 原理图
同时推出的升级版深度学习自动语音识别工具框架wav2letter++,在之前wav2letter的基础上进行和很多的改进和优化。
wav2letter++ 工具包架构
这一版的工具箱由c++实现,并利用了arrayfire张量库来提高了运算效率。研究团队表示,在某些情况下wav2letter++在训练端到端的语音识别神经网络时将提速2倍。
wav2letter++ 与其他语言工具的性能比较
端到端的语音识别使得其在多语言上的大规模应用变得可行。同时直接从原始音频上进行学习可以充分发挥高质量音频的效果。端到端的算法加上高效的工具框架,将有效促进这一领域的研究,希望全卷积神经网络的语音识别和wav2letter工具为小伙伴们的研究带来新的帮助。

苹果:2019年通过应用商店商业收入高达5190亿美元
晶方科技去年净利增长52% 技术工艺改善提升
安科瑞电力监控系统在援赞比亚恩多拉体育场的应用
随着新国标的施行 小米将会推出更多更好的优质空调产品
单片机系统EMC测试和及电磁兼容故障排除技术
Facebook发布全卷积神经网络语音识别模型,开源语音处理深度学习工具包
瞬态电子技术:电子产品几年后 可自然分解?
英伟达发布全新汽车芯片Thor 于2025年量产装车
企业对区块链技术的利用已成为了2019年的标志性特征
联华电子推出SRAM的80奈米SDDI晶圆专工制程
快速通行的自动检票机设计方案
格芯分别与PsiQuantum公司和Raytheon公司宣布光学和射频方面的合作
Vishay推出的新款红外传感器可以满足室外应用的特殊要求
仿生传感器路在何方,专家现场指点迷津
诺德股份4μm研发成功 锂电铜箔产能占诺德股份有效铜箔产能的 80%以上
华为p10即将在香港上市,还是国行售价良心
动引擎:如何提供更高效的电动汽车
量化导致电磁噪声物理量“总和”计算方法
5G时代必然成为全球智能手机的竞争焦点
PCB中的信号衰减原理与计算