欢迎光临散文网 会员登陆 & 注册

Unifying Two-Stream Encoders with Transformers for Cross-Modal R

2023-09-10 20:45 作者:三月phanta  | 我要投稿


overview

论文简要 :

  • 本文提出了一种统一两流编码器与变压器的跨模态检索方法,通过设计一个基于两个流的变压器的跨模态检索框架,实现了图像和文本之间的更好的交互和对齐,从而提高了检索的准确性。

背景信息:

  • 论文背景: 人们通过视觉、声音和触觉等多种方式感知和与物理世界互动。为了使机器模拟这种感知过程,同时分析多种模态的数据是一种基本而重要的能力。视觉信息和文本数据是我们日常生活中最常见的两种模态,视觉和语言的研究也在过去几年中引起了广泛关注。跨模态检索是一项基本的多模态理解任务,对于准确的检索仍然具有很大的挑战,因为需要探索精确的跨模态对齐和全面的模态内/间关系和交互。

  • 过去方案: 早期的方法使用典型相关分析(CCA)来建立不同模态之间的互联关系,或者使用主题模型来捕捉多模态联合分布空间中的关系。随着深度学习技术的发展,深度神经网络被应用于提取视觉和文本表示,并通过投影函数学习从单模态到跨模态空间的映射。然而,这种整体的单模态表示只能捕捉图像或文本中的显著实例,而忽略了非显著实例或实例之间的微妙关系。为了解决这个问题,许多工作进一步设计了细粒度的对齐框架,通过首先在片段级别上关联图像区域和文本单词,并聚合匹配的片段对来获得最终的图像-文本对。

  • 论文的Motivation: 现有的跨模态检索方法使用不同的架构对图像和文本进行编码,例如,对于图像使用CNN,对于文本使用RNN/Transformer。这种架构上的差异可能导致不同的语义分布空间,并限制图像和文本之间的交互,进而导致图像和文本之间的对齐不佳。为了填补这一研究空白,本文受到变压器在视觉任务中的最新进展的启发,提出了一种统一编码器架构,使用变压器来处理图像和文本。具体而言,本文设计了一个基于两个流的变压器的跨模态检索框架,称为Hierarchical Alignment Transformers (HAT),它包括一个图像变压器、一个文本变压器和一个分层对齐模块。通过这样的相同架构,编码器可以产生更相似的图像和文本特征表示,使得它们之间的交互和对齐更加容易。此外,为了利用丰富的语义信息,本文设计了一种分层对齐策略,以探索图像和文本之间不同层次的多级对应关系。通过在两个常用数据集MSCOCO和Flickr30K上进行广泛实验,实验结果表明,HAT相对于现有方法在图像到文本和文本到图像检索任务上取得了显著的性能提升。

方法:

  • a. 理论背景:

    • 本文关注跨模态检索任务,即将图像和文本对齐以实现准确的检索。先前的方法使用不同的图像和文本编码器架构,导致模态之间存在差异和有限的交互。为了解决这个问题,作者提出了一种统一的框架,称为Hierarchical Alignment Transformers (HAT),它使用Transformer来进行图像和文本表示学习。他们还引入了一种分层对齐策略,以捕捉图像和文本之间的多层对应关系。通过在基准数据集上评估HAT的有效性,发现其在性能上超过了现有方法很多。

  • b. 技术路线:

    • HAT由文本Transformer、图像Transformer和分层对齐模块组成。文本Transformer使用BERT结构提取单词的上下文表示,实现图像和文本之间的细粒度关联。图像Transformer使用Swin Transformer作为视觉骨干网络,捕捉图像的密集表示。多个阶段的输出特征图被用作图像的分层表示。分层对齐模块旨在通过多层语义对齐来对齐图像和文本。该模块集成了低、中、高三个层次的语义,以捕捉不同层次的信息。模块使用Swin Transformer和BERT的输出特征进行计算,得到图像和文本的整体表示。通过堆叠交叉注意力机制,实现区域标记和单词之间的细粒度对齐。模块通过计算每个区域-单词对之间的余弦相似度,并将所有对进行聚合,得到图像和文本对之间的整体相似度。这种分层对齐策略使模型能够捕捉图像和文本之间的多层语义对应关系,从而提高了跨模态检索的性能。

结果:

  • a. 详细的实验设置:

    • 文中未提及实验设置的具体内容。

  • b. 详细的实验结果:

    • 本文在MSCOCO和Flickr30K数据集上对HAT方法与最新的先进方法进行了性能比较。比较包括图像到文本和文本到图像检索的召回率指标(R@1、R@5、R@10)。结果显示,HAT方法在两个数据集上的所有指标上都优于基线方法,并取得了显著的改进。文中还强调,与图像到文本检索相比,HAT对文本到图像检索的性能提升更大。这些结果表明,HAT方法在跨模态检索中具有优越性。


Unifying Two-Stream Encoders with Transformers for Cross-Modal R的评论 (共 条)

分享到微博请遵守国家法律