深度学习点云感知科研论文小班2期
2023-02-22 13:56 作者:janet19961217 | 我要投稿
模型:对比学习,预测
对图文数据,将图片分类任务转换成图文匹配任务:

双流,2个encoder分别处理文本和图片数据,text encoder使用Transformer,image encoder用了2种模型,ResNet和Vision Transformer(ViT);
a. 5种ResNet:ResNet-50, ResNet-101, EfficientNet-style的ResNet,