自动驾驶-多模态融合3D目标检测课
2023-07-21 07:48 作者:每天一个拼课小技巧__ | 我要投稿
输入
文本数据:BookWiki and OpenWebText
图片数据:OpenImages and COCO unlabel
图文对:COCO, Visual Genome (VG), Conceptual Captions (CC) and SBU Captions
文本数据
输入:BPE分词器得到 W =\lbrace{[CLS],w_1,...,w_n,[SEP] \rbrace}
Token representation:self-attention之后得到h = \lbrace{h_{[CLS]},h_{w_1},...,h_{w_n}, h_{[SEP]} \rbrace}
视觉数据
通过Faster R-CNN提取视觉信息region features V
输入:V = \lbrace{[IMG],v_1,...,v_t \rbrace}
region表示:self-attention之后得到h = \lbrace{h_{[IMG]},h_{v_1},...,h_{v_n}, h_{v_t} \rbrace}
视觉文本数据
输入: \lbrace{[IMG],v_1,...,v_t,[CLS],w_1,...,w_n,[SEP] \rbrace}
视觉和文本表示:h_{[IMG]},h_{[CLS]}
模型: Cross-Modal Contrastive Learning(CMCL) + Transformer
对比学习:希望对应的图片V和文本W的距离d(V,W)更近,不相关的图文距离越远越好。
为了保证不同级别的图文对齐,使用了以下方式进行正负样本构建。