自动驾驶-多模态融合3D目标检测课

输入

文本数据：BookWiki and OpenWebText

图片数据：OpenImages and COCO unlabel

图文对：COCO, Visual Genome (VG), Conceptual Captions (CC) and SBU Captions

文本数据

输入：BPE分词器得到 W =\lbrace{[CLS],w_1,...,w_n,[SEP] \rbrace}

Token representation：self-attention之后得到h = \lbrace{h_{[CLS]},h_{w_1},...,h_{w_n}, h_{[SEP]} \rbrace}

视觉数据

通过Faster R-CNN提取视觉信息region features V

输入：V = \lbrace{[IMG],v_1,...,v_t \rbrace}

region表示：self-attention之后得到h = \lbrace{h_{[IMG]},h_{v_1},...,h_{v_n}, h_{v_t} \rbrace}

视觉文本数据

输入： \lbrace{[IMG],v_1,...,v_t,[CLS],w_1,...,w_n,[SEP] \rbrace}

视觉和文本表示：h_{[IMG]},h_{[CLS]}

模型： Cross-Modal Contrastive Learning（CMCL） + Transformer

对比学习：希望对应的图片V和文本W的距离d(V,W)更近，不相关的图文距离越远越好。

为了保证不同级别的图文对齐，使用了以下方式进行正负样本构建。

标签：

自动驾驶-多模态融合3D目标检测课的评论 (共条)