图像文本匹配任务定义:也称为跨模态图像文本检索,即通过某一种模态实例, 在另一模态中检索语义相关的实例。例如,给定一张图像,查询与之语义对应的文本,反之亦然。具体而言,对于任意输入的文本-图像对(Image-Text Pair),图文匹配的目的是衡量图像和文本之间的语义相似程度(这也是文本生成图像中很重要的一个点)。asym()不对称损失:https://zhuanlan.zhihu.com/p/493630181我们使用CHAIR指标来评估robust split的标题的图像相关性。CHAIR度量包括两种变体:CHAIRi (CHi)用于测量图像的相关比例,CHAIRs (CHs)用于计算包含相关图像部分的句子比例。 (1) the standard methods (e.g., SGAE, UpDown, Transformer, M2 Transformer) that utilizes the pre-trained Faster R-CNN (backbone: ResNet-101) to extract visual inputs;
(2) the approaches (e.g., CLIP Res101) that take the strong CLIP grid features as visual inputs. Note that for fair comparisons with our COSNet, we reimplement several upgraded variants of existing standard methods (e.g., Up-Down †, Transformer †, X_x0002_Transformer †) by using the same CLIP grid features as visual inputs.集成模型表明模型鲁棒性object hallucination (i.e., the image relevance of the generated captions)
image relevance metrics (CHs and CHi)
we adopt the robust split introduced in CVPR2018 to conduct object hallucination analysis
Neural Baby Talk : This repository provides a Dockerfile for setting up all dependencies and preprocessed data for COCO experiments (normal / robust / NOC).image: patch effect == bodding box effect图片和文字由于模态的异构,存在极大的语义鸿沟。图文匹配的关键挑战在于准确学习图片和文本之间的语义对应关系,并度量它们的相似性。在现有的图像文本匹配方法中有两种范式:
第一种方法倾向于执行全局级匹配,即找到文本和整个图像之间的语义对应。他们通常将整体图像和文本投射到一个共同的潜在空间,然后匹配这两种模式。(CLIP可以被分为此类,其将图像和文本同时投影到一个计算矩阵中,计算其相似度)。
第二种范式侧重于检查局部级匹配,即图像中的显著区域和文本中的单词之间的匹配。局部级别匹配考虑了图像和文本之间的细粒度语义对应。AttnGAN的DAMSM就是基于这个原理,其将句子的图像和单词的子区域映射到一个公共语义空间,从而在单词级别测量图像-文本相似度,以计算图像生成的细粒度损失。
在局部级匹配的领域,基于注意力的匹配框架最近迅速成为主流,其关键思想是通过注意力关注来自另一模态的每个查询片段的相关片段来发现所有单词-图像区域对齐。数据集:Flickr30K总共有31000张图片和155000个句子,其被分成1000张测试图像、1000张验证图像和29000张训练图像。MS-COCO包含123287张图像和616435个句子,将其分为5000张测试图像、5000张验证图像和113287张训练图像。
评估指标:Recall(R@K,K=1,5,10)和rSum。R@K表示检索到的前K个列表中的地面真相的百分比。rSum是所有R@K在图像到文本和文本到图像中,反映了整体匹配性能。实现细节:显卡为RTX 3090Ti GPU,优化器为Adam,初始学习率为0.0005,每10个周期衰减10%。Flickr30K和MSCOCO的最小批量大小分别设置为128和256,两个数据集上都有20个epoches,特征尺寸d被设置为1024。λ设置为20,α设置为2.0,γ设置0.2。
COCO 采样样本数==batchsize->256 Flicker30 采样样本数==batchsize->128
some tricks
超参数由experiment得到