9月深度学习论文任务送达 内附论文读后总结
学姐在打(上)工(班)间(摸)隙(鱼)时候看到推特上有这样的拼贴画。

这是作者为所读论文所做的图片摘要,目的是通过这样的图片摘要拼贴画的方式,让大家能够一目了然的获得本篇论文的大致信息和深度学习的新趋势。感兴趣的同学们可以去推特上看一下。

学姐看到作者8月阅读了4篇深度学习的论文,并在9月做了推荐,这不立马就给大家整理了!认真阅读后收藏,最好是能梳理出来自己的思路并进行思考才算掌握!
01
作者:Feurer et al. (2021)
论文名称:Auto-Sklearn 2.0: Hands-free AutoML via Meta-Learning
Auto-Sklearn 2.0:通过元学习实现免提AutoML

论文阅读总结:
Auto-ML有望消除超参数和模型选择的繁琐手动调整。举个例子——Auto-Sklearn API(链接在底部参考文档),它提供了一个简单的高级接口来自动评估多个预处理和模型拟合管道。
以前的 Auto-ML 系统的一个关键因素是使用所谓的元特征,这些元特征最初是为手头的数据集计算的。然后使用这些特征来选择一个“策略”,以便在解决方案空间中顺序搜索。策略选择基于到代表性数据集的元数据集的元特征距离。
如果数据集与元数据集有很大差异,有时这可能会导致泛化问题。而且,很难设计有代表性的元特征并调整Auto-ML算法本身的超参数。
Auto-Sklearn 2.0旨在通过引入两个改变来克服这两个挑战:
首先,他们不依赖元特征,而是使用元学习的初始管道组合。最初,对这些候选投资组合进行评估,以启动贝叶斯优化内循环。
其次,他们引入了一个元学习策略选择器,它根据所考虑的数据集中的样本数量和特征,规定了一个模型选择策略(例如交叉验证vs简单的坚持评估)和一个预算分配策略(全预算与更积极的连续减半)。因此,该系统更接近分层的元-元方法。
作者在OpenML基准(OpenML文档链接在底部)测试上验证了他们提出的修改,并为10分钟和60分钟的时间预算提供了新的技术水平。
Paper
https://ml.informatik.uni-freiburg.de/papers/21-ARXIV-ASKL2.pdf
Code
https://github.com/automl/auto-sklearn
02
作者:Steiner et al.(2021)
论文名称:How to train your ViT?Data, Augmentation, and Regularization in Vision Transformers
如何训练你的ViT?Vision Transformers 中的数据、增强和正则化

论文阅读总结:
虽然 Vision Transformer (ViT) 模型很灵活并且不需要预先支持的归纳偏差(例如卷积的平移等方差),但它们的训练协议可能相当复杂,最终结果可能对超参数敏感。施泰纳等人旨在研究计算预算、模型大小、增强/正则化和训练数据量之间的权衡。
该论文为从业者提供了宝贵的见解,并展示了超过 5 万次 ViT 培训运行的结果。
具体来说,论文中作者表明,通过使用数据增强(例如 MixUp 和 RandAug)和模型正则化(例如权重衰减和丢弃)的正确组合,可以实现与在 10 倍数据上训练的模型相当的模型性能。在大数据上预先训练的ViT也会产生表征,更适合下游传输。
此外,作者表明,仅微调单个最佳转换器(在预训练数据集上评估)通常会产生与基于微调数据选择的模型相当的模型。因此,微调单个 ViT 以获得适合您的传输应用程序的良好模型可能更具成本效益。
最后,作者比较了不同的增强和正则化技术。他们发现数据增强在更多情况下似乎比模型正则化更有效。总的来说,论文的主要优势在于它们使用标准化的培训设置,这使他们能够提出有证据支持的声明。
paper
https://arxiv.org/abs/2106.10270
code
https://github.com/google-research/vision_transformer
03
作者:Jastrzebski et al.(2021)
论文名称:
Catastrophic Fisher Explosion: Early Phase Fisher Matrix Impacts Generalization
Catastrophic Fisher Explosion:早期Fisher矩阵影响泛化

论文阅读总结:
人们经常会读到深度学习中随机梯度下降的“隐式正则化”。但这实际上指的是什么?
Jastrzebski等人研究了一种由于使用大学习率而产生的正则化。他们表明,在训练早期,较小的学习率会导致 Fisher 信息矩阵轨迹的强烈振荡。这种“Explosion”似乎会导致更糟糕的最终泛化,但可以通过提高学习率的训练来规避。
基于这一见解,作者定义了一个显式正则化器,它促进了一个小的 Fisher 跟踪。他们表明,这种正则化器缩小了学习率较小的训练运行的性能差距,并提供证据表明,在训练早期使用正则化项时特别有效。
作者认为,这种效果可能是由于记忆有限造成的,并表明 Fisher 矩阵的迹与噪声示例的梯度成正比。通过惩罚轨迹,可以降低这些示例的学习速度并减少过度拟合。
最后,他们表明Fisher惩罚会导致平坦的最小值(通过Hessian的迹线测量的低曲率),这已被证明可以更好地泛化。因此,本文的主要贡献在于将早期训练阶段的不稳定性与观察到的Fisher信息行为联系起来。
Paper
https://arxiv.org/abs/2012.14193
04
作者:Raghu et al. (2021)
论文名称:Do Vision Transformers See Like Convolutional Neural Networks?
视觉转换器看起来像卷积神经网络吗?

论文阅读总结:
Vision transformer是如何解决任务的? 它们的表征结构与传统的CNN相似还是完全不同?
研究这个问题的一个强大工具是表征相似性分析 (RSA)。RSA 使用 Centered Kernel Alignment 比较不同输入的两个网络层的激活。结果的数值度量告诉您表示的相似程度。科恩布里斯等人(2019)以前使用这种方法来阐明 ResNets 的计算机制。那么与ViT相比有什么区别呢?
ViT 层在所有层之间具有更一致的相似性。这意味着信息通过架构传播得更强大。拉古等人表明这是由于两个原因:
首先,自注意力机制允许在比局部卷积更早的阶段聚合全局信息。
其次,ViTs 中的跳过连接允许通过数十层传达早期聚合信息。如果在某个块训练一个禁用跳过连接的 ViT,这将在所有先前和所有后来的块之间强制执行“通信”分区。
另一个发现是ResNets需要更多的早期层来获得可以用很少的ViT层获得的表示。这可能又是由于注意力机制能够在早期整合全局信息。最后,作者表明 ViT 需要在大量数据上进行训练才能学习局部性的归纳偏差。甚至 ImageNet-1k 似乎都不够,只有 Google 内部的 JFT-300 数据集。
Paper:
https://arxiv.org/abs/2108.08810
参考文档
https://towardsdatascience.com/four-deep-learning-papers-to-read-in-september-2021-3650a30725d
https://docs.openml.org/
https://github.com/automl/auto-sklearn
http://proceedings.mlr.press/v97/kornblith19a/kornblith19a.pdf
https://twitter.com/hashtag/mlcollage
本文中如果出现翻译问题,欢迎评论区讨论提出。
免责声明:本文内容来源互联网,仅供参考。转载稿件版权归原作者和机构所有,如有侵权,请联系我们删除。

每天18:30分更新
关注学姐+星标+在看
不迷路看好文
