2023年7月7日

2023-07-08 15:57 作者:blgpb 0人读过 | 我要投稿

Exploring new ways: Enforcing representational dissimilarity to learn new features and reduce error consistency

https://arxiv.org/pdf/2307.02516.pdf

independently trained CNNs tend to predict erroneously on the same cases much more often than expected by chance given their accuracy, and more often than e.g. humans

独立训练的卷积神经网络（CNN）在相同案例上产生错误预测的频率往往比预期的要高得多，也比人类等其他实体更频繁。

这句话指的是，当使用独立进行训练的多个卷积神经网络对相同的案例进行预测时，它们会产生错误的预测，并且这种错误发生的频率远超过预期的随机概率，甚至比人类等其他实体的错误率更高。

简单来说，这个观察结果表明，即使这些独立训练的CNN在准确度方面表现良好，但它们仍然存在一种共性，即在某些特定案例上出现错误预测的倾向。这种情况可能是由于数据集中存在一些困难样本或者模型的局限性造成的。相比之下，人类可能会更好地理解这些案例，从而在预测时产生较低的错误率。

需要注意的是，这只是针对独立训练的CNN的一般趋势观察，具体结果可能因数据集、模型架构和任务类型等因素而有所不同。

different models are functionally similar, through stitching (Lenc & Vedaldi, 2015) the top of a model to the bottom of another independently trained model with marginal accuracy penalties

通过将一个模型的顶部和另一个独立训练的模型的底部进行拼接（Lenc & Vedaldi, 2015），可以使得这些不同的模型在功能上相似，并且只会带来较小的准确性损失。

这句话指的是，通过将两个独立训练的模型进行拼接，可以创建一个新的模型。具体而言，将一个模型的顶部（即输出层之前的部分）与另一个模型的底部（即输入层之后的部分）相连接，形成一个更大的模型。

这种拼接的操作通常用于特征融合或模型集成的目的。通过将多个模型组合起来，可以利用它们各自的优势，从而提高整体性能。同时，作者也指出，这种拼接操作对模型的准确性可能会产生一定的影响，但是这个影响通常是可接受的小幅度准确性损失。

需要注意的是，具体的拼接方法可能因模型结构和任务类型而异。这种方法的有效性和适用性还取决于实际应用场景和数据集的特点。

showed that independently trained ResNets exhibit a linear mode connectivity with zero loss barrier, given a previous functionally invariant kernel weight permutation

这项研究表明，独立训练的ResNet模型在前一个函数不变的卷积核权重置换下，显示出线性模式连接，并且不存在零损失屏障。

这句话描述了一项关于独立训练的ResNet模型的研究结果。研究发现，当对卷积核权重进行函数不变的置换时，即使是独立训练的ResNet模型也会呈现出线性模式的连接特性。这意味着通过保持权重的函数不变性，可以在模型之间建立一种线性关系。

此外，该研究还指出，在给定先前函数不变的卷积核权重置换的情况下，ResNet模型之间不存在零损失屏障。换句话说，无论经过何种权重置换，这些ResNet模型之间都没有彼此之间完全相等的权重配置所导致的零损失的情况。

这项研究结果揭示了独立训练的ResNet模型之间的连接特性和权重配置的相关性，为我们对神经网络模型的理解提供了新的视角。

showed that distinct latent spaces of two independently trained models tend to differ just by an quasi-isometric transformation

这项研究表明，两个独立训练的模型的不同潜空间往往只通过一种准等距变换来区分。

这句话描述了一项关于独立训练的模型的研究结果。研究发现，当对两个独立训练的模型的潜空间进行比较时，它们之间的差异通常可以通过一种准等距变换来解释。

准等距变换是指保持距离和角度的变换方式。在这种情况下，研究发现两个模型的潜空间之间存在一种相对稳定的、接近准等距的关系。也就是说，通过对一个模型的潜空间应用适当的准等距变换，可以获得与另一个模型的潜空间非常相似的结果。

这项研究结果揭示了独立训练的模型之间潜空间的特点和相互之间的关系。它为我们理解模型的表示能力以及模型之间的相似性提供了重要线索。

While the feature similarity is not a problem for a single model, multiple models are often combined into an ensemble to improve performance and to measure predictive uncertainty (Lakshminarayanan et al., 2016). When these models learn the same features, they may learn spurious correlations that are not actually useful for the task at hand. This causes them to share failure modes making them fail in the same way. Ensemble improvement is highly dependent on models having a large disagreement error ratio (Theisen et al., 2023) or low error consistency (Geirhos et al., 2020).

单个模型的特征相似性通常不是一个问题，但是多个模型经常被组合成一个集合，以提高性能并测量预测的不确定性（Lakshminarayanan等人，2016）。当这些模型学习相同的特征时，它们可能会学习到与实际任务无关的虚假相关性。这导致它们共享失败模式，使它们以相同的方式失败。集合改进高度依赖于模型具有较大的差异错误比率（Theisen等人，2023）或低错误一致性（Geirhos等人，2020）。

这段话描述了将多个模型组合成集合时可能遇到的问题。当多个模型共享相同的特征或学习到不相关的虚假相关性时，它们可能在相同的情况下出现失败。因此，仅仅将多个相似的模型组合在一起并不能有效地提升性能。

为了从集合中获得更好的性能提升，需要确保模型之间存在较大的差异和多样性。这可以通过增加模型之间的差异、引入随机性或利用不同的训练策略来实现。通过使模型产生不一致的错误，或者降低模型之间的错误一致性，可以提高集合方法的效果。

这些研究结果指出，在构建模型集合时，需要注意模型之间的差异性和多样性，以避免共享失败模式和虚假相关性所带来的问题，并获得更好的性能提升。

This can be increased slightly through different augmentation schemes, moderately through different pre-training schemes and strongly through pre-training on a different dataset, with higher error inconsistency in error rates improving ensemble benefits more (Gontijo-Lopes et al., 2022).

增加模型集合的多样性可以通过不同的数据增强方案略微提高，通过不同的预训练方案适度提高，而通过在不同数据集上进行预训练可以显著提高。其中，错误率不一致性更大的情况下，集合效果会得到更大的改善（Gontijo-Lopes等人，2022）。

这段话指出了增加模型集合多样性的几种方法以及它们对提升集合效果的影响。

首先，通过应用不同的数据增强方案，可以在一定程度上增加模型之间的差异性。数据增强是通过对训练数据应用各种变换和扰动来生成更多的训练样本，从而丰富了模型所观察到的数据分布。

其次，通过使用不同的预训练方案，例如在不同的任务或数据集上进行预训练，可以进一步提高模型集合的多样性。这些预训练方案可以帮助模型学习到不同的特征表示和数据统计信息。

最后，通过在不同的数据集上进行预训练，可以显著增加模型集合的多样性。不同数据集之间可能存在领域差异和数据分布的差异，这样的预训练可以帮助模型在不同领域或任务上具有更好的泛化能力。

此外，研究还发现，错误率不一致性较大的情况下，模型集合的效果会得到进一步的改善。这意味着当模型在不同样本上产生不一致的错误时，集合方法可以更好地利用这种差异性，从而提高整体性能。

总结而言，通过采用不同的数据增强方案、预训练方案以及在不同数据集上进行预训练，可以增加模型集合的多样性。同时，错误率的不一致性也对于集合效果的提升起着重要作用。

什么是错误率的不一致性？error inconsistency

错误率的不一致性是指在模型集合中，不同的模型对于相同样本或相同任务的预测结果存在较大差异的情况。也就是说，每个模型在处理相同数据时产生了不同的错误。

当模型集合中的不同模型具有不一致的错误率时，集合方法可以利用这种差异性来提高整体性能。如果所有模型都犯同样的错误，那么集合的效果可能不会明显改善。但如果不同模型之间在特定样本上产生不同的错误，集合可以通过综合多个模型的结果来减少整体错误率。

错误率的不一致性通常可以通过训练不同的模型、使用不同的训练策略或引入随机性来增加。这些方法可以帮助模型集合中的不同模型探索不同的解空间，从而导致不一致的错误率。

需要注意的是，错误率的不一致性并不一定总是好的。过大的错误率差异可能会导致集合中某些模型的预测结果不可靠，因此在构建模型集合时需要权衡不一致性和性能提升之间的关系。

In this paper, we propose to regularize internal representations of a new model to be dissimilar to an existing model to promote discovering novel ways of solving the task, which, to the best of our knowledge, has not been explored so far. Through this we hope to learn about the connection of internal similarity to the predictive behavior between models, specifically whether inducing diversity in intermediate processing stages leads to different predictive behavior and more robust ensembles.

在本文中，我们提出通过正则化新模型的内部表示与现有模型不相似来促进发现解决任务的新方法，据我们所知，这个方向迄今尚未被探索。通过这种方式，我们希望了解内部相似性与模型之间的预测行为之间的关联，特别是在中间处理阶段引入多样性是否会导致不同的预测行为和更强大的集合模型。

这段话提出了一种新的方法，即通过正则化新模型的内部表示与现有模型不相似来促进多样性的产生，并探索多样性对集合模型预测行为和鲁棒性的影响。

目前为止，多样性方法主要集中在输入数据或输出特征上的正则化。然而，在模型的内部表示层面引入多样性可能会更加有效。通过使新模型的内部表示与现有模型不相似，可以促使新模型发现解决任务的新颖方法。

通过研究内部相似性与模型预测行为之间的连接，可以确定中间处理阶段的多样性是否会导致不同的预测行为。这将有助于理解模型集合中的多样性如何影响集合的鲁棒性和性能表现。

总结而言，本文提出了一种新的方法，通过正则化新模型的内部表示与现有模型不相似来增加多样性，并希望探索多样性对集合模型预测行为和鲁棒性的影响。这是一个有趣且值得进一步研究的方向，可以为我们理解模型集合的工作机制和性能改进提供新的见解。

Our main contributions are: 1. We utilize methods from the field of representational similarity in a novel way to train ensembles of very low representational similarity at intermediate layers. 2. We show that highly dissimilar internal representations can be learned at chosen positions with only minor penalties to the model accuracy. 3. We show that enforcing dissimilar internal representations can lead to lower error consistency in the predicted outputs, overall improving ensembling performance relative to an ensemble of independently trained models.

我们的主要贡献包括：

利用表征相似性领域的方法以一种新颖的方式训练具有非常低表征相似性的中间层次的模型集合。我们运用表征相似性的概念来引导模型在中间层次学习到高度不相似的内部表示。
我们展示了在选定的位置上学习到高度不相似的内部表示时，对模型准确性只会产生较小的影响。即使在追求多样性的同时，我们的方法也能保持模型的高精度。
我们展示了强制实现不同的内部表示可以降低预测输出的错误一致性，并且相对于独立训练的模型集合，整体上提高了集合模型的性能。通过增加模型集合的多样性，我们能够改善模型集合的性能，减少模型之间的错误一致性。

这些贡献共同构成了我们的研究工作，为理解和提升模型集合的性能和多样性提供了新的思路和实证结果。

Loss Functions and Metrics in Deep Learning. A Review

https://arxiv.org/pdf/2307.02694.pdf

深度学习的一个重要组成部分是选择用于训练和评估模型的损失函数和性能指标。本论文回顾了深度学习中最常见的损失函数和性能测量方法。我们对每种技术的优点和限制进行了考察，并说明了它们在各种深度学习问题中的应用。我们的综述旨在全面介绍在最常见的深度学习任务中使用的不同损失函数和性能指标，帮助从业者为他们的具体任务选择最佳方法。

FREEDOM: Target Label & Source Data & Domain Information-Free Multi-Source Domain Adaptation for Unsupervised Personalization

https://arxiv.org/pdf/2307.02493.pdf

From a service perspective, Multi-Source Domain Adaptation (MSDA) is a
promising scenario to adapt a deployed model to a client's dataset. It can
provide adaptation without a target label and support the case where a source
dataset is constructed from multiple domains. However, it is impractical,
wherein its training heavily relies on prior domain information of the
multi-source dataset -- how many domains exist and the domain label of each
data sample. Moreover, MSDA requires both source and target datasets
simultaneously (physically), causing storage limitations on the client device
or data privacy issues by transferring client data to a server. For a more
practical scenario of model adaptation from a service provider's point of view,
we relax these constraints and present a novel problem scenario of Three-Free
Domain Adaptation, namely TFDA, where 1) target labels, 2) source dataset, and
mostly 3) source domain information (domain labels + the number of domains) are
unavailable. Under the problem scenario, we propose a practical adaptation
framework called FREEDOM. It leverages the power of the generative model,
disentangling data into class and style aspects, where the style is defined as
the class-independent information from the source data and designed with a
nonparametric Bayesian approach. In the adaptation stage, FREEDOM aims to match
the source class distribution with the target's under the philosophy that class
distribution is consistent even if the style is different; after then, only
part of the classification model is deployed as a personalized network. As a
result, FREEDOM achieves state-of-the-art or comparable performance even
without domain information, with reduced final model size on the target side,
independent of the number of source domains.

从服务提供者的角度来看，多源域自适应（MSDA）是将已部署的模型适应到客户数据集的一种有前景的场景。它可以在没有目标标签的情况下进行自适应，并支持从多个领域构建源数据集的情况。然而，在现实中，这种方法不太可行，因为它的训练严重依赖于多源数据集的先前领域信息，例如存在多少个领域以及每个数据样本的领域标签。此外，MSDA需要同时获取源数据集和目标数据集（物理上），这可能导致客户设备存储限制或由于将客户数据传输到服务器而引起数据隐私问题。

为了更加实际地从服务提供者的角度进行模型适应，我们放松了这些约束，并提出了一个新的问题场景，称为Three-Free Domain Adaptation（TFDA）。在TFDA中，1) 目标标签、2) 源数据集，以及大部分3) 源域信息（包括领域标签和领域数量）都是不可用的。在这个问题场景下，我们提出了一个实用的适应框架，称为FREEDOM。它利用生成模型的能力，将数据分解为类别和风格两个方面，其中风格定义为源数据中与类别无关的信息，并采用非参数贝叶斯方法进行设计。在适应阶段，FREEDOM旨在使源类别分布与目标类别分布保持一致，因为即使风格不同，类别分布也是一致的；然后，只有部分分类模型被部署为个性化网络。结果，FREEDOM在没有领域信息的情况下实现了最先进或可比较的性能，在目标端减小了最终模型的大小，而且与源领域的数量无关。

这项工作提出的TFDA和FREEDOM框架为服务提供者在实际情景下进行模型适应提供了新的可能性。通过解耦数据的类别和风格方面，并利用类别分布的一致性进行适应，该框架可以在没有领域信息的情况下实现出色的性能。同时，它还解决了存储限制和数据隐私问题，为服务提供者和客户之间的合作提供了更便利和安全的方式。

对于基于深度学习的服务提供商来说，由客户环境差异引起的领域转移问题是常见的障碍之一，因为这些应用程序被认为是数据依赖的。这个问题源于客户（目标）和服务器（源）端数据集之间的分布差异[1]。使用客户数据进行额外的适应可以作为一种替代方案，但在大多数情况下，为客户数据提供额外的注释是繁重的任务。作为可能的解决方法，无监督领域自适应（UDA）[2]、[3]及其下游的多源域自适应（MSDA）[4]、[5]旨在通过利用带有标签的源数据集将模型适应到未标记的目标数据上。特别是，MSDA考虑了更为合理的情况，即假设源数据集由来自多个领域的样本组成。

在领域转移问题中，最常见的情况是训练数据集和实际应用场景中的数据集之间存在分布差异。这意味着，在使用已经训练好的模型时，可能会出现性能下降的问题。为了解决这个问题，无监督领域自适应和多源域自适应方法被引入。这些方法通过在未标记的目标数据上进行模型适应，使用带标签的源数据集作为辅助来减小源领域与目标领域之间的分布差异。

MSDA方法特别关注源数据集由多个领域的样本组成的情况。这种情况下，模型需要能够适应多个不同的领域，并具有良好的泛化能力。MSDA方法通常使用深度学习模型和一些领域自适应技术，如领域对抗神经网络（Domain Adversarial Neural Networks）等。通过利用源数据集中的标签信息，MSDA可以在没有目标标签的情况下实现模型的适应。

总之，无监督领域自适应和多源域自适应方法旨在解决深度学习服务提供商面临的领域转移问题。它们通过利用源数据集中的标签信息和多个领域的样本来适应模型，从而提高模型在未标记目标数据上的性能。

尽管存在这些技术进步，但在将现实世界的服务场景应用于多源域自适应（MSDA）时仍需考虑许多因素。由于源数据和目标数据存在隐私问题，几乎不允许将数据集相互传输。换句话说，客户的未标记数据无法传输到服务器，反之亦然。此外，向客户发送多个源数据集可能会受到存储限制。近期引入了无源UDA（SFUDA）来解决这一情况，只需发送源端模型，而不是数据集[6]–[9]。还探索了多源无源领域自适应（MSFDA）方法以支持多源情况[10]，[11]。

在实际的服务场景中，由于隐私和存储限制等因素，将源数据集传输给服务器或将目标数据集传输给客户端是不可行的。为了解决这个问题，最新的无源领域自适应（SFUDA）方法提出了只传输源端模型而不传输数据集的方式。这样可以避免数据隐私问题，并减轻存储限制。类似地，多源无源领域自适应（MSFDA）方法被探索用于支持多个源领域的情况。

这些方法的核心思想是通过在源端进行适应，而不是通过传输数据集来解决隐私和存储限制等问题。通过在源端构建一个能够适应多个领域的模型，可以使模型具备更好的泛化能力，从而在目标数据上获得良好的性能。

总之，为了应对隐私和存储限制等问题，SFUDA和MSFDA方法提出了仅传输源端模型而不传输数据集的方式。这为多源域自适应问题的解决提供了实用的解决方案。

标签：

2023年7月7日

Exploring new ways: Enforcing representational dissimilarity to learn new features and reduce error consistency

什么是错误率的不一致性？error inconsistency

Loss Functions and Metrics in Deep Learning. A Review

FREEDOM: Target Label & Source Data & Domain Information-Free Multi-Source Domain Adaptation for Unsupervised Personalization