欢迎光临散文网 会员登陆 & 注册

贪心cvTransformer研修

2022-09-19 15:37 作者:抽抽一生恋  | 我要投稿

视觉应用

虽然Transformer结构 (已报名贪心cvtransformer底部评)在NLP领域得到了广泛的应用,但是在视觉领域的应用仍然有限。在视觉领域,attention或者是和CNN网络共同使用或者是代替CNN中特定的组件。想要将 Transformer应用到视觉任务中,我们首先需要构建一些类似于VGG、ResNet之类的backbone。

以下是几个在相关工作中比较知名的项目:

DETR(End-to-End Object Detection with Transformers),使用Transformers进行物体检测和分割。

Vision Transformer (AN IMAGE IS WORTH 16X16 WORDS: Transformer FOR IMAGE RECOGNITION AT SCALE),使用Transformer 进行图像分类。

Image GPT(Generative Pretraining from Pixels),使用Transformer进行像素级图像补全,就像其他GPT文本补全一样。

End-to-end Lane Shape Prediction with Transformers,在自动驾驶中使用Transformer进行车道标记检测


原文链接:https://blog.csdn.net/weixin_44522007/article/details/123064760


贪心cvTransformer研修的评论 (共 条)

分享到微博请遵守国家法律