研究人员提出了“Skim-RNN”的概念,用很少的时间进行快速阅读

循环神经网络(rnn)是用于自然语言建模的主流架构,通常,rnn按顺序读取输入的token,再输出每个token的分布式表示。通过利用相同的函数来循环更新隐藏状态,rnn的计算成本将保持不变。虽然这一特点对于某些应用来说很常见,但在语言处理过程中,并不是所有token都同等重要,关键要学会取舍。例如,在问答题中,只对重要部分进行大量计算,不相关部分分配较少的计算才是有效的方法。
虽然有注意力模型和lstm等方法提高计算效率或挑选重要任务,但它们的表现都不够好。在本篇论文中,研究人员提出了“skim-rnn”的概念,用很少的时间进行快速阅读,不影响读者的主要目标。
skim-rnn的构成
受人类快速阅读原理的启发,skim-rnn的结构由两个rnn模型构成:较大的默认rnn模型d和较小的rnn模型d’。d和d’是用户定义的超参数,并且d’<< d。
如果当前token比较重要,skim-rnn就会使用大的rnn;如果不重要,它就会转向使用小的rnn。由于小rnn比大rnn需要的浮点运算次数更少,所以该模型比单独使用大rnn所得结果更快,甚至更好。
推理过程
在每一步骤t中,skim-rnn将输入的xt∈rd和之前的隐藏状态ht-1∈rd作为其参数,输出新的状态ht。k代表每一步做出harddecision的次数。在skim-rnn中,不论是完全阅读或跳过,k=2。
研究人员使用多项随机变量qt对选择概率分布pt的决策过程进行建模。pt表示为:
这里,w∈rk×2d,b∈rk。
接下来我们定义随机变量qt,通过从概率分布pt对qt进行采样:
如果qt=1,那么该模型与标准rnn模型一样。如果qt=2,那么模型选用了较小rnn模型以获取较小的隐藏状态。即:
其中f是带有d输出的完全rnn,而f'是带有d'输出的小rnn,d'<< d。
实验结果
研究人员在七组数据集上对skim-rnn进行测试,包括分类测试和问答题两种形式,目的是为了检验模型的准确度和浮点运算减少率(flop-r)。
文本分类
在这项任务中,输入的是单词序列,输出的是分类概率的向量。最终,下表显示出skim-rnn模型与lstm、lstm-jump的精确度和计算成本对比。
以sst、烂番茄、imdb和agnews四个网站为例进行本文分类,在标准lstm、skim-rnn、lstm-jump和最先进的模型(sota)上进行对比
改变较小隐藏状态的尺寸的影响,以及参数γ对精确度和计算成本的影响(默认d=100,d'=10,γ=0.02)
下图是imdb数据集中的一个例子,其中skim-rnn的参数为:d=200,d'=10,γ=0.01,最终将本段文字正确分类的概率为92%。
其中黑色的字被略过(用小lstm模型,d'=10),蓝色的字表示被阅读(用较大的lstm模型,d=200)
和预期的一样,模型忽略了类似介词等不重要的词语,而注意到了非常重要的单词,例如“喜欢”、“可怕”、“讨厌的”。
回答问题
这项任务的目的是在给定段落中找到答案的位置。为了检测skim-rnn的准确度,研究人员建立了两个不同的模型:lstm+注意力和bidaf。结果如下所示:
f1和em值可表明skim-rnn的准确度。最终发现,速读(skimming)模型的f1分数比默认没有速读(non-skimming)的模型相同甚至更高,并且计算成本消耗得更少(大于1.4倍)。
lstm+注意力模型中,不同层的lstm速度率(skimming rate)随γ的变化而变化的情况
lstm+注意力模型的f1分数。计算成本越大,模型表现得越好。在同样的计算成本下,skim lstm(红色)比标准lstm(蓝色)的表现要好。另外,skim-lstm的f1分数在不同参数和计算成本下都更稳定
f1分数与flop-r之间的关系
下图是模型回答问题的一个例子,问题为:最大的建筑项目(construction project)也称作什么?(正确答案:megaprojects)
模型给出的答案:megaprojects。
红色代表阅读,白色代表略过
运行时间
上图显示了与标准lstm相比,skim-lstm的相对速度增益的隐藏状态有不同大小和速度速率。在这一过程中,研究人员使用的是numpy,并在cpu的单个线程上进行推论。
可以看到,实际增益(实线)和理论增益(虚线)之间的差距无法避免。随着隐藏状态增大,这一差距会减小。所以对于更大的隐藏状态,skim-rnn的表现会更好。
结语
本次研究表明,新型循环神经网络skim-rnn可以根据输入的重要性决定使用大的rnn还是小的rnn,同时计算成本比rnn更低,准确度与标准lstm和lstm-jump相比类似甚至更好。由于skim-rnn与rnn具有相同的输入输出接口,因此可以轻松替换现有应用中的rnn。
所以,这样工作适用于需要更高隐藏状态的应用,比如理解视频,同时还可以利用小rnn做不同程度的略读。

美泛化国家安全概念,频繁抹黑打压华为等中企
隔膜泵计量精度影响因素及完善措施
苹果开发CarKey无钥匙开锁功能 或与宝马合作
苹果最大的两家代工厂正在中国境外扩大产能
KT6368A蓝牙芯片的距离天线周围的匹配元器件LC,能增加距离吗
研究人员提出了“Skim-RNN”的概念,用很少的时间进行快速阅读
小米手机三面环绕屏幕设计专利曝光,后置采用双摄像头设计
PLC数据采集远程监控物联网解决方案
一文读懂智能工厂安全生产AI监管系统方案
视频国家工程实验室完成了面向公安应用的人脸识别测评体系
vivoX20和华为Mate9哪个值得买?vivoX20和华为Mate强强对决
RedmiBook 13全渠道发售 稳居京东十代酷睿轻薄本销量第一
疫情对于视频监控有没有很大的影响
一步一步学用Tensorflow构建卷积神经网络
今年的iPhone将使用A14 Bionic芯片组
电子交通系统联网解决方案
折叠屏:全面屏之后新创意,可折叠的全屏手机
声音的模仿会影响声纹识别吗
相约慕展丨矽力杰携车规级MCU及BMS AFE方案重磅亮相
rk3399和rk1808哪个好