fair和谷歌大脑的合作研究,专注于“反向翻译”方法,用上亿合成单语句子训练nmt模型,在wmt’14 英语-德语测试集上达到35 bleu的最优性能。论文在emnlp 2018发表。
机器翻译依赖于大型平行语料库,即源语和目的语中成对句子的数据集。但是,双语语料是十分有限的,而单语语料更容易获得。传统上,单语语料被用于训练语言模型,大大提高了统计机器翻译的流畅性。
进展到神经机器翻译(nmt)的背景下,已经有大量的工作研究如何改进单语模型,包括语言模型融合、反向翻译(back-translation/回译)和对偶学习(dual learning)。这些方法具有不同的优点,结合起来能够达到较高的精度。
facebook ai research和谷歌大脑的发表的新论文understanding back-translation at scale是这个问题的最新成果。这篇论文专注于反向翻译(bt),在半监督设置中运行,其中目标语言的双语和单语数据都是可用的。
反向翻译首先在并行数据上训练一个中间系统,该系统用于将目标单语数据转换为源语言。其结果是一个平行的语料库,其中源语料是合成的机器翻译输出,而目标语料是人类编写的真实文本。
然后,将合成的平行语料添加到真实的双语语料(bitext)中,以训练将源语言转换为目标语言的最终系统。
虽然这种方法很简单,但已被证明对基于短语的翻译、nmt和无监督mt很有效。
具体到这篇论文,研究人员通过向双语语料中添加了数亿个反向翻译得到的句子,对神经机器翻译的反向翻译进行了大规模的研究。
实验基于在wmt竞赛的公共双语语料上训练的强大基线模型。该研究扩展了之前的研究(sennrich et al. , 2016a ; poncelas et al. , 2018) 对反译法的分析,对生成合成源句的不同方法进行了全面的分析,并证明这种选择很重要:从模型分布中采样或噪声beam输出优于单纯的beam search,在几个测试集中平均 bleu高1.7。
作者的分析表明,基于采样或noised beam search的合成数据比基于argmax inference的合成数据提供了更强的训练信号。
文章还研究了受控设置中添加合成数据和添加真实双语数据的比较,令人惊讶的是,结果显示合成数据有时能得到与真实双语数据不相上下的准确性。
实验中,最好的设置是在wmt ’14 英语-德语测试集上,达到了35 bleu,训练数据只使用了wmt双语语料库和2.26亿个合成的单语句子。这比在大型优质数据集上训练的deepl系统的性能更好,提高了1.7 bleu。在wmt ‘14英语-法语测试集上,我们的系统达到了45.6 bleu。
合成源语句子
反向翻译通常使用beam search或greed search来生成合成源句子。这两种算法都是识别最大后验估计(map)输出的近似算法,即在给定输入条件下,估计概率最大的句子。beam search通常能成功地找到高概率的输出。
然而,map预测可能导致翻译不够丰富,因为它总是倾向于在模棱两可的情况下选择最有可能的选项。这在具有高度不确定性的任务中尤其成问题,例如对话和说故事。我们认为这对于数据增强方案(如反向翻译)来说也是有问题的。
beam search和greed search都集中在模型分布的头部,这会导致非常规则的合成源句子,不能正确地覆盖真正的数据分布。
作为替代方法,我们考虑从模型分布中采样,并向beam search输出添加噪声。
具体而言,我们用三种类型的噪音来转换源句子:以0.1的概率删除单词,以0.1的概率用填充符号代替单词,以及交换在token上随机排列的单词。
模型和实验结果
我们使用fairseq工具包在pytorch中重新实现了transformer 模型。所有的实验都是基于big transformer 架构,它的编码器和解码器都有6个block。所有实验都使用相同的超参数。
实验结果:不同反向翻译生成方法的准确性比较
实验评估首先比较了反向翻译生成方法的准确性,并分析了结果。
图1:在不同数量的反向翻译数据上训练的模型的准确性,这些数据分别通过greedy search、beam search (k = 5)和随机采样得到。
如图1所示,sampling和beam+noise方法优于map方法,bleu要高0.8-1.1。在数据量最大的设置下,sampling和beam+noise方法比bitext-only (5m)要好1.7-2 bleu。受限采样(top10)的性能优于beam 和 greedy,但不如非受限抽样(sampling)或beam+noise。
图2:对于不同的合成数据,每个epoch的training perplexity (ppl)。
图2显示,基于greedy或beam的合成数据与来自采样、top10、 beam+noise和bitext的数据相比更容易拟合。
表1
表1展示了更广泛的测试集的结果(newstest2013-2017)。 sampling和beam+noise 的表现大致相同,其余实验采用sampling。
资源少 vs 资源多设置
接下来,我们模拟了一个资源缺乏的设置,以进一步尝试不同的生成方法。
图3:在80k、640k和5m句子对的bitext系统中添加来自beam search和sampling的合成数据时,bleu的变化
图3显示,对于数据量较大的设置(640k和5.2m bitext),sampling比beam更有效,而对于资源少的设置(80k bitext)则相反。
大规模的结果
最后,我们扩展到非常大的设置,使用多达226m的单语句子,并且与先前的研究进行了比较。
表4:wmt英语-法语翻译任务中,不同测试集上的tokenized bleu
表5:wmt英语-法语翻译任务中,不同测试集上的de-tokenized bleu (sacrebleu)
表6:wmt 英语-德语 (en-de)和英语-法语 (en-fr)在newstest2014上的bleu。
表7:wmt英语-德语newstest17和newstest18上的非标记、不区分大小写的sacrebleu。
结论
反向翻译是一种非常有效的神经机器翻译数据增强技术。通过采样或在beam输出中添加噪声来生成合成源句子,比通常使用的argmax inference 具有更高的精度。
特别是,在newstest2013-2017的wmt英德翻译中,采样和加入噪声的beam比单纯beam的平均表现好1.7 bleu。这两种方法都为资源缺乏的设置提供了更丰富的训练信号。
此外,这一研究还发现,合成数据训练的模型可以达到真实双语语料训练模型性能的83%。
最后,我们只使用公开的基准数据,在wmt ‘14英语-德语测试集上实现了35 bleu的新的最优水平。
华为发力新赛道,进军短视频生态领域
一文教你读懂ZWS云的可视化开发
常见的端子块类型及其基本原理、安装方式和配置
现代化水质自动监测:智慧城市AD叶绿素
基于S7-200下的Modbus RTU通信协议
FAIR和谷歌大脑的合作研究,专注于“反向翻译”方法
如何制作一个简易的录音器?
酷派M7怎么样?酷派M7评测:酷派M7价格2699,是王者的回归还是最后的战役?
预计2020年我国视频监控行业市场规模将达3167亿元
普通探头对差分信号测量的危害有哪些?如何避免呢?
紫光国微发行15亿元可转债:备受资本市场追捧
浅谈smt真空回流焊接机炉温曲线的特点
减速机轴承座磨损的修复方法
LED显示屏在广告上如此受欢迎
中国机器人的发展比国外落后多少
崔荣国应邀出席并见签飞谱电子新一轮增资签约仪式
积塔半导体与先进半导体正式签订合并协议
基于FPGA的边缘设备开发深度神经网络检测程序
四维图新旗下六分科技完成6.2亿元B轮融资
美国欲拆分汽车安全预留的关键频段,以适应无线设备