欢迎光临散文网 会员登陆 & 注册

详解一篇CLIP应用在语义分割上的经典论文

2023-05-19 12:28 作者:深度之眼官方账号  | 我要投稿

来源:投稿 作者:xin

编辑:学姐

Motivation:

目前虽然已经有很多工作去改进CLIP,但是这些改进都是集中在image-text match级别的分类问题上,很少有人涉足稠密预测领域。故本文在这方面进行了探索,即如何把CLIP训练好的image-text匹配的知识,迁移到下游pixel-text匹配的任务上。

Method

相比于传统的Pre-training + Fine-tuning的范式CLIP类的模型融入了文本信息。将CLIP迁移到稠密任务,有两个挑战将CLIP的知识迁移到稠密预测任务上有两个难点:
1、如何将V-L pretrained利用在稠密预测任务上很少有人涉足,且像之前pretrained backbone一样会忽略语言先验。
2、由于上游对比学习学的是image-text的配对,而稠密预测任务是pixel-text的配对。

为了解决上述问题,本文提出了DenseCLIP模型。模型具体框架如下:

针对将image-text match到pixel-text match的问题,论文提出了语言指导的稠密预测,具体过程为:

作者也进行了两种方式的比较,最终选择了post的方法。因为pre的方法在推理过程中需要text encoder额外的前传(因为其依赖于视觉特征),而post的方法可以预先存储提取出来的文本特征,减少text encoder在推理过程中带来的开销。此外post的结果比pre的好。故选择post方法。

为了将DenseCLIP模型更好的应用于不同的稠密预测任务,作者针对不同任务提出了不同的额外损失函数。由于score map可以看作低分辨率的分割结果,作者使用如下公式计算额外损失:

Result

在ADE20K的分割结果

ADE20K可视化结果

语义分割相关论文关注【学姐带你玩AI】公众号

回复“500”免费领(含视频讲解)

详解一篇CLIP应用在语义分割上的经典论文的评论 (共 条)

分享到微博请遵守国家法律