编者按:几个月前,论智介绍了图像生成领域的一个巨大进展:sagan。在那篇论文中,罗格斯大学和google brain的研究人员大胆把nlp中的self-attention模型引入gan,解决了特征记忆问题,把图像生成的初始分数(is)从36.8一下提到了52.52。而近日,一篇iclr 2019的open review论文(赫瑞-瓦特大学&deepmind)带来了更震撼结果,他们把is一下子提高了一百多分,从52.52提升到了166.3。
摘要
尽管学界在生成图像建模上取得了不小进展,但从像imagenet这样的复杂数据集中成功生成高分辨率、多样化的样本仍然是一个难以实现的目标。为此,我们以至今最大规模训练了生成对抗网络(gan),并研究了这种规模所特有的不稳定性。研究发现,通过在生成器上使用正交正则化,我们可以让它适应简单的“截断技巧”,即允许利用“截断”潜在空间来精确控制样本保真度和多样性之间的权衡。
我们的修改使模型的性能达到了新高度。当我们在imagenet上用128×128分辨率的图像进行训练时,我们的模型(biggan)的is为166.3,fid为9.6,而之前的最佳记录是is 52.52,fid 18.65。
简介
近年来,生成图像建模领域出现了不少成果,其中最前沿的是gan,它能直接从数据中学习,生成高保真、多样化的图像。虽然gan的训练是动态的,而且对各方面的设置都很敏感(从优化参数到模型架构),但大量研究已经证实,这种方法可以在各种环境中稳定训练。
尽管取得了这些进步,当前生成图像模型在imagenet数据集上的表现还是很一般,最高is只有52.52,而真实图像数据的得分高达233。
在这篇论文中,研究人员通过一系列修改,缩小了gan生成的图像和imagenet中的真实图像之间的差异,他们做出的贡献主要有以下三点:
证明gan能从大规模训练中受益。通过对体系结构做了两个简单修改,他们在训练过程中使用的参数量是现有研究的2-4倍,batch size是8倍,但模型性能有显著提高。
作为改进的副作用,新模型非常适合“截断技巧”,即精确控制样本保真度和多样性之间的权衡。
发现大规模gan的特有不稳定性,并根据经验进行表征。根据分析所得,他们认为把新方法和现有技术结合可以缓解这种不稳定性,但如果要实现完全的稳定训练,这会大大有损性能。
主要改进
本文提出的biggan遵循了sagan的基本架构,它基于resnet,但判别器d中的通道和一般resnet不同,每个模块的第一个卷积层的filter数量等于输出的filter数,而不是输入数。
在128×128 imagenet数据上的架构
研究人员首先简单增加了基线模型的batch size,这样做的效果如下表所示。随着batch size逐渐变为基线的2倍、4倍、8倍,模型的fid不断下降,is不断增加,至8倍时,biggan的is较sagan已经提高了约46%。对于这个结果,他们提出的一个猜想是更大的batch size意味着每个batch覆盖的模式更多,这为两个神经网络提供了更好的梯度。
但这么做也有缺点,就是虽然模型能在更少的迭代中达到更好的最终性能,但它很不稳定,甚至会在训练时崩溃。
各batch size下biggan的is(越高越好)和fid(越低越好)
之后,他们又把神经网络每一层的通道数在原有基础上增加了50%,这时每个神经网络的参数数量也几乎翻了一倍。当biggan的参数数量是sagan的两倍时,它的is较后者提高了约21%。对此,他们给出的解释是,相对于数据集的复杂性,模型的容量增加了。而增加神经网络深度不会产生相似效果,反而会降低最终性能。
考虑到生成器g中conditional batchnorm layer的类嵌入c包含大量权重,他们不再为每个嵌入分别设置一个层,而是使用了一个共享嵌入,由它投影到每一层。这降低了计算和存储成本,并把训练速度提高了37%。同时,他们使用了分层潜在空间的变体,把噪声向量z馈送进生成器的多个层,直接影响不同分辨率和层次结构级别的特征。
(a)常规生成器架构;(b)生成器中的残差块
生成效果
biggan生成的各个类别的图像
biggan生成的256×256的图像
biggan生成的512×512的图像
上面是论文呈现的一些生成图像。虽然其他gan也能精选一些不错的图,但对比细节,biggan在质地、光影、外形等方面的表现都优于以往成果。而且就sagan强调的腿部生成效果来看,上图中公鸡的腿不突兀、更自然,和真实图像难以区分。
中兴通讯率先推出业界首个虚实共管vBRAS解决方案
xilinx7系列FPGA的应用及功能解析——chiptuo(芯片拓展者)
宁德时代将与松下、LG争锋 至2020年电池产能将增5倍
IIC-China 2010春季展参展商预览
介绍一种RC延时放电电路及问题分析
图像生成领域的一个巨大进展:SAGAN
慢速保险丝是怎样一回事?
React、Preact和Inferno谁才是真正优秀的JavaScript框架?
凌力尔特推出精确的SOT23电压基准器件LT6656
iPod Shuffle停产:物理按键推出历史舞台 触摸屏的全面胜利
Cortina Access业绩将可望出现5~10%的成长
福特中国正式公布 Mustang Mach-E 中国制造计划 全球首个高性能纯电动平台打造
全球云计算的3A格局正向物联网市场延续
紧逼S7edge手机 Mark给华为P10相机打了很高的分
全天候户外扬尘监控系统改善空气质量
基于物联网技术的下水道溢流监测系统解决下水道溢流
如何通过Wekinator平台使用手势控制Arduino
大数据要如何助力汽车新零售新金融的腾飞呢?
AD9361 RF捷变收发器的性能及应用
小马智行自研自动驾驶域控制器ADC已开始向用户交付样品