长期以来,序列建模一直是循环神经网络(rnn)的天下。然而,近年来,卷积神经网络(cnn)开始入侵这一rnn的保留领地,在建模长距离上下文方面表现尤为出色。这两年来,更出现了独立于rnn和cnn之外的完全基于自注意力机制的模型。
cmu和intel的研究人员shaojie bai、j. zico kolter、vladlen koltun刚刚(2018年10月15日)发布了论文trellis networks for sequence modeling,提出了一种新颖的架构——网格网络(trellisnet)。网格网络的结构融合了cnn和rnn,因此可以直接吸收许多为cnn和rnn设计的技术,从而在多项序列建模问题上战胜了当前最先进的cnn、rnn、自注意力模型。
trellisnet架构
trellisnet的基本单元如下图所示:
上图中,t表示时刻,i表示网络层,w表示权重,x表示序列输入(蓝色),z表示隐藏状态(黄色)。可以看到,这一基本构件的输入是前一层i在t、t+1时刻的隐藏状态,以及t、t+1时刻的输入向量。
这些输入经过前馈线性变换(省略了偏置):
和前一层t时刻的隐藏状态一起传给非线性激活函数f:
平铺上述单元,我们就得到了完整的trellisnet:
注意,所有时刻和网络层的权重都是一样的,这也是trellisnet的一个重要特征。
顺便提一下,由于trellisnet每层都接受(相同的)输入序列x1:t作为(部分)输入,我们可以预先计算输入序列的线性变换:
然后在所有网络层使用。
trellisnet和cnn
回过头去看下完整的trellisnet示意图,可以看到,其实trellisnet的每一层,都可以视为对隐藏状态序列进行一维卷积运算,然后将卷积输出传给激活函数。也就是说,trellisnet的网络层i的运算可以总结为:
这就意味着trellisnet可以看成一种特殊的cnn,随着网络层的加深,感受野也随之增大。
不过,trellisnet和一般的(时序)cnn有两个地方不一样:
如前所述,所有时刻和网络层的权重是一样的。换句话说,所有网络层共享过滤矩阵。这样的权重系联大大降低了模型的尺寸,而且可以看成一种正则化(更稳定的训练、更好的概括性)。
(线性变换后的)输入序列直接插入每个隐藏层。输入序列的插入混合了深层特征和原始序列。
相应地,trellisnet也可以直接应用一些为cnn设计的技术:
深度监督。深度监督技术使用cnn的中间层损失作为辅助,即
(λ是固定参数,控制辅助损失的权重)。
例如,在训练一个l层trellisnet的过程中,为了预测t时刻的输出,除了最后一层的zt(l)外,我们可以同时在zt(l-l)、zt(l-2l)等隐藏状态上应用损失函数。
空洞卷积。在cnn中应用空洞卷积可以更快地扩大感受野。trellisnet可以直接应用这一技术。注意,如果我们改动了核大小或卷积设定,trellisnet的激活函数f可能需要做相应调整。例如,假设空洞为d,核大小为2,则激活函数需调整为
权重归一化。在卷积核上应用权重归一化(wn)能起到正则化作用,并加速收敛。
并行。trellisnet同样可以利用并行卷积操作。
trellisnet和rnn
rnn和cnn看起来完全不一样。cnn的每个网络层并行操作序列的所有元素,而rnn每次处理序列的一个元素,并在时间上展开。
然而,论文作者证明了,任何展开至有限长度的rnn等价于核矩阵w使用特别的稀疏结构的trellisnet:
论文作者以一个双层rnn为例,演示了两者的等价性。trellisnet的每个单元同时表示3个rnn单元(输入xt、第一层的隐藏向量ht(1)、第二层隐藏向量ht(2))。
而层间线性变换构成了混合分组卷积(mixed group convolution)——一种非常规的分组卷积,t时刻的分组k通过t+1时刻的分组k-1进行卷积。应用非线性g之后,便精确重现了原本的双层rnn的输出。
由于之前的等价性推导不涉及rnn的非线性变换g的内在结构,因此,同样适用于lstm和gru等rnn变体。例如,对lstm而言:
和之前的例子同理,一个双层lstm可以表达为使用混合分组卷积的trellisnet:
另一方面,lstm细胞可以作为trellisnet的非线性激活。下一节的各项试验中,论文作者就使用了lstm细胞作为trellisnet的激活。
同样,trellisnet也可以使用一些源自rnn的技术:
history repackaging:理论上,rnn可以表示无限长度的历史。但在许多应用中,序列长度太长,会导致反向传播难以为继(梯度消失)。经典的解决方案是将序列分为较小的子序列,在每个子序列上进行截断bptt。在序列边界处,重新打包隐藏状态ht并传给下一个rnn序列。因此梯度流停在序列边界处。trellisnet也可以利用这一技术。如下图所示,在rnn中传递压缩历史向量ht等价于在trellisnet的混合分组卷积中指定非零补齐,也就是在trellisnet中使用先前序列上最后一层的最后一步作为补齐(“历史”补齐)。
门控激活如前所述,trellisnet可以使用lstm的门控函数作为激活。实际上,gru等其他门控激活同样可以应用于trellisnet。
变分dropoutrnn的变分dropout(vd)是一种在每层的所有时步应用相同掩码的正则化方案(参见下图,每种颜色代表一种dropout掩码)。如果直接翻译这一技术到trellisnet的话,需要为网络的每条对角线和混合分组卷积的每个分组创建不同掩码。论文作者转而采用了一种极其简单的替代方案,在每次迭代中,时间维度和深度维度上的每一时步都应用相同的掩码。论文作者的试验表明,这一方案效果优于其他dropout方案。
循环权重dropout/dropconnectdropconnect推广了dropout,dropout归零随机选择的激活子集,而dropconnect归零随机选择的权重子集(如下图所示)。
merity等表明,在隐藏层之间的权重whh上应用dropconnect,可以优化lstm语言模型的表现(arxiv:1708.02182)。受此启发,trellisnet的卷积核应用了dropconnect。
另外,如前所述,等价于rnn的trellisnet的权重矩阵使用了特别的稀疏结构。那么,有理由相信,去除了这一权重矩阵限制的trellisnet应该具有更强的表达能力,可以建模比原本的rnn更广的变换。
试验结果
论文作者在单词层面和字符层面的语言建模问题上的测试表明,trellisnet表现优于当前最先进模型。
单词层面的语言建模测试是在penn treebank(ptb)数据集和wikitext-103(wt103)数据集上进行的。ptb是相对较小的数据集,因此比较容易出现过拟合现象,需要应用前两节提到的一些正则化技术。
在ptb上的测试结果(mos指混合softmax)
而wt103规模比ptb大一百倍,过拟合风险较低,但268k的词汇量使得训练很有挑战性。参照之前研究的成果,论文作者在trellisnet上应用了自适应softmax,提高了内存效率。
在wt103上的测试结果
在wt103上,trellisnet不仅表现优于当前最先进的基于自注意力机制的rmc模型(提升约4%),而且收敛速度比rmc要快很多:trellisnet在22个epoch内收敛,而rmc需要90个epoch。
对于字符层面的语言建模而言,ptb算是中等规模的数据集。因此,论文作者使用了更深的trellisnet,同时采用了权重归一化和深度监督技术。
论文作者也评估了trellisnet建模长期依赖的能力。序列化mnist、pmnist、序列化cifar-10任务,将图像视作长序列,每次处理一个像素。论文作者为此实现的trellisnet模型有八百万参数,和之前的研究所用的模型规模相当。为了覆盖更多上下文,论文作者在trellisnet的中间层应用了空洞卷积。同样,trellisnet在这些任务上的表现超过了之前的成果。
如前所述,不同任务的trellisnet采用了不同的超参数和设定,详见下表:
“-”表示未使用
为了验证吸收自cnn和rnn的各种技术的效果,论文作者在单词层面的ptb数据集上进行了消融测试:
结语
trellisnet在cnn和rnn间架起了一座桥梁。在理论层面,这可能有助于我们得到对序列建模更深入、更统一的理解。在实践层面,通过吸收源自cnn和rnn的技术,trellisnet的表现超越了当前最先进模型。而且,trellisnet的表现仍有优化空间。例如,相比经典的lstm细胞,其他门控激活可能带来更好的效果。同理,其他超参数调整也可能进一步提升trellisnet的表现。
另外,如果能够建立trellisnet和基于自注意力机制的架构(如transformers)的连接,就可以统一时序建模的三大主要范式。
聊聊Redis的使用案例
噪声扬尘在线监测系统安装的好处
USB TYPE-C领夹式麦克风5V充电方案
哈佛大学团队创造一种新的微型运动中心遥控机械手——“mini-RCM”
MLCC电容为什么会啸叫?电容啸叫解决方案一招解决啸叫
TrellisNet在CNN和RNN间架起了一座桥梁
nxp恩智浦ic芯片与固态的涉及与功率要求
利用基于线性判别分析的多变量分析模型对豇豆种子进行分类
封装推拉力测试机解决设计使测试变困难的问题
专家视角:深圳多功能智能杆信息安全潜在的风险点
主板电容器的作用与签别
Vishay 推出新款Power Metal Strip®电阻
图文详解Powermat无线充电系统
世界顶级零部件+工业4.0工厂!爱驰U6构建全新安全性能
一加7Pro获得HDR10+权威认证 相较HDR10有哪些不同
2012最新智能手机排行榜_智能手机排行榜2012
FPGA GTH收发器实现了10GBASE-KR与Virtex-7 FPGA的电气一致性
楼宇无线对讲信号覆盖解决方案
黑鲨3强势核心顶级屏幕,专为游戏而生
树莓派GPIO入门01-使用GPIO接口控制发光二极管闪烁