贪心cvTransformer研修
视觉应用
虽然Transformer结构 (已报名贪心cvtransformer底部评)在NLP领域得到了广泛的应用,但是在视觉领域的应用仍然有限。在视觉领域,attention或者是和CNN网络共同使用或者是代替CNN中特定的组件。想要将 Transformer应用到视觉任务中,我们首先需要构建一些类似于VGG、ResNet之类的backbone。
以下是几个在相关工作中比较知名的项目:
DETR(End-to-End Object Detection with Transformers),使用Transformers进行物体检测和分割。
Vision Transformer (AN IMAGE IS WORTH 16X16 WORDS: Transformer FOR IMAGE RECOGNITION AT SCALE),使用Transformer 进行图像分类。
Image GPT(Generative Pretraining from Pixels),使用Transformer进行像素级图像补全,就像其他GPT文本补全一样。
End-to-end Lane Shape Prediction with Transformers,在自动驾驶中使用Transformer进行车道标记检测
原文链接:https://blog.csdn.net/weixin_44522007/article/details/123064760