欢迎光临散文网 会员登陆 & 注册

自动驾驶-多模态融合3D目标检测课

2023-07-21 07:48 作者:每天一个拼课小技巧__  | 我要投稿

输入

文本数据:BookWiki and OpenWebText

图片数据:OpenImages and COCO unlabel

图文对:COCO, Visual Genome (VG), Conceptual Captions (CC) and SBU Captions


文本数据

输入:BPE分词器得到 W =\lbrace{[CLS],w_1,...,w_n,[SEP] \rbrace}

Token representation:self-attention之后得到h = \lbrace{h_{[CLS]},h_{w_1},...,h_{w_n}, h_{[SEP]} \rbrace}


视觉数据

通过Faster R-CNN提取视觉信息region features V

输入:V = \lbrace{[IMG],v_1,...,v_t \rbrace}

region表示:self-attention之后得到h = \lbrace{h_{[IMG]},h_{v_1},...,h_{v_n}, h_{v_t} \rbrace}


视觉文本数据

输入: \lbrace{[IMG],v_1,...,v_t,[CLS],w_1,...,w_n,[SEP] \rbrace}

视觉和文本表示:h_{[IMG]},h_{[CLS]}


模型: Cross-Modal Contrastive Learning(CMCL) + Transformer

对比学习:希望对应的图片V和文本W的距离d(V,W)更近,不相关的图文距离越远越好。

为了保证不同级别的图文对齐,使用了以下方式进行正负样本构建。


自动驾驶-多模态融合3D目标检测课的评论 (共 条)

分享到微博请遵守国家法律