推荐一堆讲GAN方面的论文
最近终于有NLP方向的同学来问我,有咩有NLP方向的论文推荐了!我以为我的粉丝都是CV方向的呢!不要着急,下下周就开始给大家推荐NLP方向的经典论文。如果你着急要,就先加入学姐的交流群领取一部分论文资料吧。
关注【学姐带你玩AI】公众号👉点击菜单领资料👉点击链接👉加群👉领资料
热场完毕,我们来看论文——
GAN
给出GAN的基本框架和理论证明
期刊日期
2014 NIPS(NeurIPS)
论文名称
《Generative Adversarial Nets》
描述
生成对抗网络通过一个对抗步骤来估计生成模型,它同时训练两个模型:一个是获取数据分布的生成模型G,一个是估计样本来自训练数据而不是G的概率的判别模型D。G的训练步骤就是最大化D犯错的概率。这个框架对应于一个二元极小极大博弈。在任意函数G和D的空间中,存在唯一解,G恢复数据分布,D总是等于1/2。在G和D通过多层感知机定义的情况下,整个系统通过反向传播训练。在训练或者生成样本过程中,不需要任何马尔科夫链或者展开近似推理网络。通过对生成样本定性和定量分析,实验证明了框架的潜力。
论文链接
https://arxiv.org/pdf/1406.2661.pdf
代码:
https://github.com/goodfeli/adversarial
CGAN
在输入中加入额外的条件信息来控制输出
期刊日期
2014 arxiv 2014
论文名称
《Conditional Generative Adversarial Nets》
描述
Conditional Generative Adversarial Networks,这是一种带条件约束的生成对抗模型,它在生成模型(G)和判别模型(D)的建模中均引入了条件变量y,这里y可以是label,可以是tags,可以是来自不同模态是数据,甚至可以是一张图片,使用这个额外的条件变量,对于生成器对数据的生成具有指导作用,因此,Conditional Generative Adversarial Networks也可以看成是把无监督的GAN变成有监督模型的一种改进,这个改进也被证明是非常有效的,为后续的相关工作提供了指导作用。
论文链接
https://arxiv.org/abs/1411.1784
DCGAN
使用深度卷积神经网络来实现生成器和判别器
期刊日期
2015 ICLR
论文名称
《Unsupervised representation learning with deep convolutional generative adversarial networks》
描述
近年来,使用卷积神经网络的监督学习被大量应用于计算机视觉应用中。相对地,使用卷积神经网络的非监督学习则被较少的关注。在这项工作中,我们希望可以帮助缩小监督学习和非监督学习在CNN的成功上差距。我们介绍了CNN的一个类,称为深度卷积生成对抗网络(DCGANs),这个网络有着明确的结构约束,并且表明他们对非监督学习有着强烈的可信度。
在不同的图像数据集上训练,我们展示出了令人信服的证据,我们的深度卷积对抗对,从对象部分到场景,在生产器和判别器上都能学到层级的表示。此外,我们在一些新的任务上使用学习到的特征,表明了它们在一般化图像的表示上具有通用性。
论文链接
https://arxiv.org/pdf/1511.06434v2.pdf
Improved GAN
对GAN的全方位改进以及评价指标IS的提出
期刊日期
2016 NIPS(NeurIPS)
论文名称
《Improved Techniques for Training GANs》
描述
GAN是基于博弈论的生成模型方法。GAN训练一个生成网络来生成尽可能真实的图像,一个判别网络尽可能区分真是图像和生成图像。
训练GAN要求找到在连续高维参数下非凸博弈的纳什均衡。但是通常GAN用梯度下降方法去寻找损失函数的最小值,而不是纳什均衡。
本文,我们介绍了几个方法去鼓励GAN博弈的收敛。这些方法的灵感来源于非凸问题的启发式理解。可以帮助提升半监督学习性能和提升采样生成。
论文链接
https://arxiv.org/pdf/1606.03498.pdf
Pix2Pix
把输入由随机噪声改为图像
期刊日期
2017 CVPR
论文名称
《Image-to-Image Translation with Conditional Adversarial Networks》
描述
在图像处理、计算机图形学和计算机视觉领域,很多问题都可以认为是将一张输入图片“转换”成相对应的输出图片。一个场景可以被渲染为RGB图像,梯度域,边缘图或语义图等。类比自动语言翻译,我们将图像到图像的转换问题定义为,在给定足够训练数据的情况下,将场景的一个可能表示转换成另一个。
语言翻译之所以困难的一个原因是,语言之间的映射很少是一对一的,一种语言中的概念总是比用其他语言表达来的容易。相似的,绝大多数图像转换问题也是多对一的(计算机视觉)或者一对多的(计算机图形学)。
传统上,每个任务都使用一种单独的,专用的机制来解决。但是实际上这些任务本质上都是一样的:从像素点预测新的像素点。本文的目标就是为这些问题设计一种通用的框架。
论文链接
https://arxiv.org/pdf/1611.07004.pdf
CycleGAN
输入和输出是无需一一对应的两组图像
期刊日期
2017 CVPR
论文名称
《Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks》
描述
图像到图像的转换是一个经典的视觉和图形问题,目的是在对齐的数据集中学习输入图像和输出图像之间的映射关系。然而,许多任务,对齐训练数据很难获取。作者提出一种不对齐数据集训(源数据域X到目标域Y)的学习方法。
目标是学习映射G: X -> Y 认为来自G(x)的分布图与使用对抗性损失的分布图无法区分。因为这个映射是高度受限,所以作者使用一个逆映射:Y -> X, 并引入一个循环一致性损失强制 F(G(X))~X(反之亦然)。
在不存在配对训练数据的情况下,给出了定性的结果,包括收集风格迁移,物体变形,季节转移,光增强等。通过对几种已有方法的定量比较,证明了作者的方法的优越性。
论文链接
https://ieeexplore.ieee.org/document/8237506
Progressively-Growing GAN
GAN使用渐进式训练来逐步生成越来越大的图像
期刊日期
2018 ICLR
论文名称
《Progressive Growing of GANs for Improved Quality, Stability, and Variation》
描述
提出了一种新的训练对抗神经网络的方法。核心思想是逐步训练生成器和分别器:从低分辨率开始,随着训练进程推进,逐步增加新的层来提炼细节。这种方法不仅加快了训练速度并且更加稳定,可以产生高质量的图像
提出了一些实施的细节对于消除生成器和分辨器的不好的竞争
提出了新的方法来评估GAN产生的结果
论文链接
https://arxiv.org/pdf/1710.10196v3.pdf
代码:
https://github.com/tkarras/progressive_growing_of_gans
StackGAN
根据一段文本描述来生成对应的图像
期刊日期
2017 ICCV
论文名称
《StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks》
描述
本文是研究文本生成图片的问题,相比于之前的论文不能生成必要的细节和具体的对象,本文着重要解决的问题是提高图片的分辨率同时为图片添加必要的细节。
其实stackGAN的原理和做法很类似,可以看作是两个CGAN串联在一起。
论文链接
https://arxiv.org/pdf/1612.03242v1.pdf
代码:
https://github.com/hanzhanggit/StackGAN
BigGAN
大batch、大网络、限制输入噪声z的分布,训练稳定性trick-
期刊日期
2018 ICLR
论文名称
《Large Scale GAN Training for High Fidelity Natural Image Synthesis》
描述
1、论证了GANs能通过scaling来提升性能。他们使用与原先技术相比,2~4倍的参数量和8倍的batch size,引入了两种简单的结构调整方法来提升网络的可扩展性,并修改一种正则化方案来提高conditioning。
2、上述修改产生的另一种影响是,模型非常适用于“trucation trick”,它是一种简单的采样技术,可以对样本多样性与保真性进行外部地细粒度地调节。
3、发现大型GAN特有的不稳定性,并从经验上对他们进行描述。经过分析表明通过现有技术与创新的技术的结合能够减少这种不稳定性,但是训练时完全的稳定性只能通过以较大地牺牲模型表现来实现。
论文链接
https://arxiv.org/pdf/1809.11096.pdf
StyleGAN
基于progressively-growing GAN可以精细控制输出图像不同尺度的特征
期刊日期
2018 CVPR
论文名称
《A Style-Based Generator Architecture for Generative Adversarial Networks》
描述
这是NVIDIA的一篇新论文,一个对于GAN(StyleGAN)的基于样式的生成器体系结构,提出了一个新的模型来应对这个挑战。StyleGAN是一步一步地生成人工图像的,从非常低的分辨率开始,一直到高分辨率(1024×1024)。通过分别地修改网络中每个级别的输入,它可以控制在该级别中所表示的视觉特征,从粗糙的特征(姿势、面部形状)到精细的细节(头发颜色),而不会影响其它的级别。
这种技术不仅可以更好地理解所生成的输出,而且还可以产生最高水平的结果 — 比以前生成的图像看起来更加真实的高分辨率图像。
论文链接
https://arxiv.org/pdf/1812.04948.pdf
代码:
https://github.com/NVlabs/ffhq-dataset
https://github.com/NVlabs/stylegan
免责声明:所载内容来源互联网,仅供参考。转载稿件版权归原作者和机构所有,如有侵权,请联系我们删除。
关注【学姐带你玩AI】
找论文不迷路
