这是一篇关于风格迁移中如何进行数据增强的论文。在introduction部分,informal-->formal 的风格迁移问题,最大的障碍是训练数据的不足。为了解决此问题,本篇论文提出三种数据增强的方法来获得有用的语句对,分别为
back translation (bt)
我们使用原始语料库训练一个seq2seq模型。其中将formal语句作为模型的输入,让seq2seq模型有能力输出对应的informal句子。则 模型输入的formal语句和输出的informal语句就构成了一个新的语句对。
formality discrimination (f-dis)
f-dis方法使用机器翻译模型,将一个informal句子重写为formal句子。首先使用google翻译api 将这些informal语句翻译成 其他语种(比如法语),然后又翻译回英语。如下图所示:
其中,informal语句可以从网上论坛上收集得到。
表示收集到的第i条句子(informal), 是最后翻译回的句子(formal), 二者构成了一个新的语句对。
本方法同时使用cnn构建了一个“格式判别器”:用来给一个句子的“正规”程度 打分。就是上图中右边括号内的小数。最终选出的新数据集要求如下:
其中表示句子的“正规”程度, 是阈值
multi-task transfer (m-task)
我们观察到,formal语句通常语法正确,而informal语句的语法经常出错。
前人研究表明,对fst的输出再使用一个语法错误纠正模型( grammatical error correction model,gec)可以提高模型效果。受此启发,本论文直接使用gec的训练数据作为增强的新数据集。如下图
模型训练
上面提到的seq2seq模型为transformer (base)。
本论文首先使用增强的新数据用于 预训练,然后使用原始语料数据做微调,将这称为pre-training & finetuning (pt&ft)方法。下面结果证明了pt&ft的效果优于st方法。st是把增强数据和原数据一起训练。
下图展现了三种数据增强方法的效果:
下图展现了我们的方法与前人模型的比较结果:
原文标题:【acl2020】关于正式风格迁移的数据增强方法
文章出处:【微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。
使用单片机模拟开关灯的电路图和资料及源代码概述
MSGFile Converter软件如何工作?
宁德时代建全球最大电池工厂 未来生产规模将超过特斯拉超级工厂
华为城市智能体解决方案重磅发布
秋游节奏怎么带 手机变身“听歌神器”让你心情好到开挂
在风格迁移中如何进行数据增强
IBM以混合云和AI赋能新生态携手共创可持续未来
电子工程师入门须知
电子打火机的电压有多少伏_打火机电子点火器电压分析
魅族Pro7超大气!骁龙835+全面屏指纹识别
中国科学家研制出能够杀死恶性肿瘤的纳米机器人
LTC1419 ADC通过12.81dB SINAD、5dB SFDR升级95位系统
艾凯尔医疗推出一款智能手环 可治疗病毒性感冒减少抗生素滥用
松下将于2021年退出液晶面板业务,转向汽车和工业领域
基于小型化微带双分支定向耦合器的设计方案
隔离比较器在电机系统中的应用
什么是区块链的全节点与轻节点?
TI通过具有实时处理和多媒体功能的最强大SoC来破坏嵌入式市场
魅蓝Note5外观被告侵权,魅族停售赔偿354万余元
永磁无刷直流电机的原理及设计实例