欢迎光临散文网 会员登陆 & 注册

论文解读Kaleido-BERT——时尚领域视觉-语言预训练模型

2022-03-22 18:51 作者:深度之眼官方账号  | 我要投稿

来源:投稿 作者:小灰灰 编辑:学姐


论文解读

Kaleido-BERT: Vision-Language Pre-training on Fashion Domain

这是一篇在时尚领域、往细粒度方向做视觉、语言预训练的工作。



01 网络结构


Kaleido-BERT的模型结构图.1。

它包含 5 个步骤:


(1) 在输入阶段,Kaleido-BERT 有两种模态 的特征输入:文本输入 (e.g., 商品图像描述) 以及由Kaleido图像块生成器 (KPG) 所产生的对应的图像 输入。每个文本描述被表征为一系列的词例 (token),而每一张与文本对应的图 像被表示为一系列Kaleido 图像块。


(2) 在图文特征向量生成的阶段,本研究使用了注意力对齐生成器(AAG)去产生词例与Kaleido图像块的预对齐信息,以便图像和文本隐式地进行语义对齐。


(3) 在交互阶段,与现有的随机掩码策略不同,本文提出采用预 对齐掩码策略 (AGM) 以缓解跨模态语义交互难度。


(4)词例和Kaleido图像块的特征向量在Kaleido- BERT 得到充分交互后,模型渐进式的学习视觉-语 言的语义信息并产生多模态细粒度表征。


(5) 除了掩码语言模型 (Masked Language Modeling,MLM) 和图文匹配任务 (Image-Text Matching, ITM) 外, 本工作还使用了 5 种新型的预对齐 Kaleido 模型 (Aligned Kaleido Patch Modeling, AKPM),即: 旋转, 拼图, 伪装, 着色和修复任务。


1.1 Kaleido 图像块生成器


以一张商品图片作为输入,并将其送入 Kaleido 图像块生成器 (KPG)。如图.下图所示,KPG使用 了显著性检测网络去提取前景分割图,并以前景图为依据框定主体目标。受空间包络 (spatial envelop)以及分块策略的启发,本文探索将单张图像切分不同的尺度 (即,1×1, 2×2, . . . , 5×5)。

这些图像块就是“Kaleido(百变)”图像块。除此之外,也可以根据特定任务的难 度去考虑更为细致的划分 (如 6×6,或像是 Pixel- BERT的 N×N 划分)。

最终,每一张图像被划分为55块Kaleido图像块。为了生成这些图像块的特征向量,本文采用ResNet-50作为骨干网络进行模型的特征提取。


1.2 注意力对齐生成器

注意力对齐生成器 (AAG) 目的是产生文本词例(token)与 Kaleido图像块之间的模糊对齐。如下图中, 直接使用了著名的SAT网络,将其 在 FashionGen 数据集上重新训练。

之后,它作为 文本生成器,自动描述图像的内容。在图像描述阶段,SAT网络会对每一个词例生成注意力热图,以 这些热图为依据可以推断生成的词与图像区域的关 系。

若生成的描述和原本描述有共现的单词,将依照 共现单词的注意力热图来判断该单词倾向于与哪一Kaleido图像块关联。从而得到一部分原始描述中的 单词与 Kaleido 图像块的对齐信息。


1.3 预对齐掩码策略


通过注意力对齐生成器,模型获得了关联好的 ⟨token, patch⟩ 对。虽然这些对齐信息并不十分精确,但它提供了不同模态间潜在的语义关联。至此, 可依照这些信息修改原始的随机掩码策略。

将这些信息利用到预训练阶段,它能更好地帮助 Kaleido- BERT 隐式地探索跨模态语义关系。与随机掩码策略不同,预对齐掩码策略 (AGM) 会 给予更高优先级去掩码有预对齐信息的词例或图像块。当选中了某一预对齐 ⟨token, patch⟩ 进行掩码时,会随机掩码图像或文本中的其中一侧,这有利于Kaleido-BERT通过现有信息 (单模态保留的特征) 去推测另一模态丢失的特征。

当所有预对齐图 像文本对都被遍历后,仍然出现没有足够的预对齐图像-文本对进行预对齐掩码策略时,则重新采用随 机掩码策略补足所需要的掩码个数。通过这样的方式,得到了词例 (token) 与图像块 (patch) 的候选掩码。

AGM 策略在 Kaleido 图像块中的 3×3、4×4、 5×5 层级生效。

本文研究工作没有将掩码策略应用 于 1×1、2×2 这两种尺度是因为掩码大的图像块会 增加模型的预训练难度 (且意义不大)。根据经验,本 文分别在 3×3 图像块挑出1块,4×4 图像块挑出2块,5×5 图像块挑出 3 块进行掩码。


1.4 多模态 Transformer


使用原始的 BERT构建多模态Trans- former,这使得 Kaleido-BERT易于开发和迁移。沿用了 FashionBERT  的做法,即将词例序列 (i.e., 由 WordPieces产生) 的位置信息编码为 0,1,2,3,...,N。


在BERT中, 每一个文本训练语料是由其本身的词嵌入、语义特征、位置编码特征相加而来,再接一个归一化层 (LN Layer) 生成最后的特征向量。而对于图像训练特征, 先将每一个图像块的位置信息编码成五维的特征([x1, x2, y1, y2, w ∗ h])。然后将图像块特征与它的位置编码特征分别送入到一个全连接层 (FC),将它们映射到同一个维度上。


最后,采用相加通过全连接层 后的特征 (i.e., FC (seg_id), FC (img_feature), FC (pos_emb))的方式,可以得到每一个图像块的视觉特征向量,最后将它们送入LN层。


1.5 预训练


为了缓解视觉与语言的语义隔阂,促进多模态 表征学习,本文设计了三种训练任务促进预训练过 程,分别是: 预对齐掩码语言模型 (AMLM)、图文 匹配任务 (ITM) 以及提出的预对齐 Kaleido 图像 块模型 (AKPM)


2.1适用任务


1. 文本检索 (ITR)


文本检索作为一种下游任务,需要模型判断一个句子是否准确地描述一张图片。


本文在 Fashion-Gen 采样了一些商品图 像和标题作为图像文本对,并使用原始的产品信息 作为正样本。与此同时,打乱数据集并使用不匹配的图像文本对作为负样本。


为增加难度,正负样本均 采自同样的子类目,因此它们会较难被PTM区分。此外,本文使用 Rank@1, Rank@5, Rank@10 评估 检索性能。



2. 图像检索 (ITR)


图像检索任务以文本描 述为线索,对最相关的商品图像进行排序。


与文本检索类似,本文使用真正的商品图像文本对作为正 样本,并从同子类目中的商品中随机选取100个不相关的描述作为负样本。通过预测样本的匹配分数,本文依旧使用 Rank@1, @5, @10 作为评价指标。


3. 类目/子类目预测 (CR&SUB)


类目是描述商品至关重要的信息,这些信息在现实应用 中非常有价值。


本文使用分类任务来进行此任务, 目的是预测商品的类目和子类目,比如 {HOODIES, SWEATERS}, {TROUSERS, PANTS}。在实施过程中,直 接在 [CLS] 后接一层全连接层来进行该任务。


4. 时尚描述 (FC)


图像描述生成是一项很重要的研究话题,在计算机视觉领域中也有广泛的工作基于此展开。时尚描述的准确率可以衡量多模态模型的生成能力。


2.2消融实验


有三个影响Kaleido-BERT性能表现的主要因素,它们分别在不同阶段起作用。

输入层: Kaleido 图像跨生成器 (KPG);向量层: 预对齐掩码策略 (AGM);

以及任务层:对齐 Kaleido 图像块模型。

因此本文实施了针对这些因素的消融实验,去进一步分析这些组件/策略。实验的结果展示在表.4和图.7中。


论文链接:

https://arxiv.org/abs/2103.16110

论文代码:

https://github.com/mczhuge/Kaleido-BERT


论文解读Kaleido-BERT——时尚领域视觉-语言预训练模型的评论 (共 条)

分享到微博请遵守国家法律