谷歌将AutoML应用于Transformer架构,翻译结果飙升!

为了探索automl在序列域中的应用是否能够取得的成功,谷歌的研究团队在进行基于进化的神经架构搜索(nas)之后,使用了翻译作为一般的序列任务的代理,并找到了evolved transformer这一新的transformer架构。evolved transformer不仅实现了最先进的翻译结果,与原始的transformer相比,它还展示了语言建模的改进性能。
自几年前推出以来,google的transformer架构已经应用于从制作奇幻小说到编写音乐和声的各种挑战。重要的是,transformer的高性能已经证明,当应用于序列任务(例如语言建模和翻译)时,前馈神经网络可以与递归神经网络一样有效。虽然用于序列问题的transformer和其他前馈模型越来越受欢迎,但它们的架构几乎完全是手动设计的,与计算机视觉领域形成鲜明对比。automl方法已经找到了最先进的模型,其性能优于手工设计的模型。当然,我们想知道automl在序列域中的应用是否同样成功。
在进行基于进化的神经架构搜索(nas)之后,我们使用翻译作为一般的序列任务的代理,我们找到了evolved transformer,这是一种新的transformer架构,它展示了对各种自然语言处理(nlp)任务的有希望的改进。evolved transformer不仅实现了最先进的翻译结果,而且与原始的transformer相比,它还展示了语言建模的改进性能。我们是将此新模型作为tensor2tensor的部分发布,它可用于任何序列问题。
开发技术
要开始进化nas,我们有必要开发新技术,因为用于评估每个架构的“适应性”的任务——wmt'14英语-德语翻译——计算量很大。这使得搜索比在视觉领域中执行的类似搜索更加昂贵,这可以利用较小的数据集,如cifar-10。
这些技术中的第一种是温启动——在初始进化种群中播种transformer架构而不是随机模型。这有助于在我们熟悉的搜索空间区域中进行搜索,从而使其能够更快地找到更好的模型。
第二种技术是我们开发的一种称为渐进动态障碍(pdh)(progressive dynamic hurdles)的新方法,这种算法增强了进化搜索,以便为最强的候选者分配更多的资源,这与先前的工作相反,其中nas的每个候选模型被分配相同的评估时的资源量。如果模型明显不好,pdh允许我们提前终止对模型的评估,从而使有前途的架构获得更多资源。
evolved transformer简介
使用这些方法,我们在翻译任务上进行了大规模的nas,并发现了evolved transformer(et)。与大多数序列到序列(seq2seq)神经网络体系结构一样,它有一个编码器,将输入序列编码为嵌入,解码器使用这些嵌入构造输出序列;在翻译的情况下,输入序列是要翻译的句子,输出序列是翻译。
演化变压器最有趣的特征是其编码器和解码器模块底部的卷积层,在两个地方都以类似的分支模式添加(即输入在加到一起之前通过两个单独的卷积层)。
evolved transformer与原始transformer编码器架构的比较。注意模块底部的分支卷积结构,它独立地在编码器和解码器中形成。
这一点特别有趣,因为在nas期间编码器和解码器架构不共享,因此独立发现该架构对编码器和解码器都很有用,这说明了该设计的优势。虽然最初的transformer完全依赖于自我关注,但evolved transformer是一种混合体,利用了自我关注和广泛卷积的优势。
对evolved transformer的评估
为了测试这种新架构的有效性,我们首先将它与我们在搜索期间使用的英语-德语翻译任务的原始transformer进行了比较。我们发现在所有参数尺寸下,evolved transformer具有更好的bleu和 perplexity performance,拥有最大增益与移动设备兼容(约700万个参数),证明了参数的有效使用。在更大的尺寸上,evolved transformer在wmt'14 en-de上达到了最先进的性能,bleu得分为29.8,sacrebleu得分为29.2。
不同尺寸的wmt'14 en-deevolved transformer与原transformer的比较。性能的最大提高发生在较小的尺寸上,而et在较大的尺寸上也显示出强度,优于最大的transformer,参数减少37.6%(要比较的模型用绿色圈出)。
为了测试普遍性,我们还在其他nlp任务上将et与transformer进行了比较。首先,我们研究了使用不同语言对的翻译,发现et表现提升,其边缘与英语-德语相似;再次,由于其有效使用参数,对于中型模型观察到了最大的提升。我们还比较了使用lm1b进行语言建模的两种模型的解码器,并且看到性能提升近2个perplexity。
未来工作
这些结果是探索体系结构搜索在前馈序列模型中应用的第一步。evolved transformer作为tensor2tensor的一部分已开源,在那里它可以用于任何序列问题。为了提高可重复性,我们还开源了我们用于搜索的搜索空间,以及实施渐进动态障碍的colab。我们期待着看到研究团体用新模型做了什么,并希望其他人能够利用这些新的搜索技术!

ONT/ONU如何工作
低成本永续可再生太阳能电池曝光
红米4高配版上手评测:千元机顶配!
OPPO为什么那么火?是产品还是渠道
如何在Cadence Allegro软件中制作过孔
谷歌将AutoML应用于Transformer架构,翻译结果飙升!
由光力微腔和磁振子微腔组成的混合系统研究
可见光通信与室内定位技术详解
NRF52832蓝牙物联网芯片及应用方案
5G时代下的农村会是什么样的
索尼Xbox Scarlett采用AMD定制芯片,发售时间已确定
浅谈Keithley吉时利2400数字源表
蓝牙耳机怎么选,分享一些音质信号都不错的蓝牙耳机
自制24V直流节能灯电路图
CNN相比传统NN有什么优点?
特控工控电脑在能耗管理系统中的应用
创意LED扬声器的制作
小夜灯设计特点:可以适用于多种不同的生活场景
通用电气收购两家AI初创公司
爱仕特1700V碳化硅功率模块已实现量产