目标检测方向的经典论文
论文推荐还在持续进行中...
大家需要什么论文
就在公众号后台告诉学姐
上次有小可爱问学姐
时间序列的论文
学姐马上就去找了并搜集过来了!
所以学姐很多想不到的
需要大家帮助哦!
今天的论文是学姐整理的目标检测方向的经典论文,大家需要请自取哦~
YOLO v3快速通用检测方法
期刊日期
2018 REPORT(年度报告,非发表论文)
论文名称
YOLOv3: An Incremental Improvement
描述
我们给YOLO提供一些更新!我们做了一些小的设计更改以使其更好。
我们也训练了这个非常好的新网络。它比上次(YOLOv2)稍大一些,但更准确。它仍然很快,所以不用担心。
在320×320 YOLOv3运行22.2ms,28.2 mAP,像SSD一样准确,但速度快三倍。
当我们看看以老的0.5 IOU mAP检测指标时,YOLOv3是相当不错的。
在Titan X上,它在51 ms内实现了57.9的AP50,与RetinaNet在198 ms内的57.5 AP50相当,性能相似但速度快3.8倍。
论文链接
https://pjreddie.com/media/files/papers/YOLOv3.pdf
代码:
https://pjreddie.com/darknet/yolo/
SSD早期单阶网络
期刊日期
ECCV2016
论文名称
SSD: Single Shot MultiBox Detector
描述
SSD(Single Shot MultiBox Detector)是ECCV2016的一篇文章,属于one - stage套路。在保证了精度的同时,又提高了检测速度,相比当时的Yolo和Faster R-CNN是最好的目标检测算法了,可以达到实时检测的要求。
论文链接
https://arxiv.org/pdf/1512.02325.pdf
代码:
https://github.com/weiliu89/caffe
Faster R-CNN第一个端到端网络(深度之眼训练营第一篇)
期刊日期
NIPS 2015
论文名称
Faster R-CNN:Towards Real-Time Object Detection with Region Proposal Networks
描述
目前最好的目标检测网络都依赖region proposals算法来假设目标位置。比较好的例子,例如SPP-net、Fast R-CNN已经极大地减少了这些检测网络的运行时间,Region proposal的计算便成了整个检测网络的一个瓶颈。这篇论文提出了一种RegionProposal Network(RPN),它能够和检测网络共享整张图像的卷及特征,从而使得region proposal的计算几乎cost-free。RPN是一种全卷积的网络,能够同时预测目标的边界以及对objectness得分。
RPN是端到端训练,产生高质量的regionproposals用于Fast R-CNN的检测。作者通过共享卷及特征进一步将RPN和Fast R-CNN合并成一个网络,使用最近神经网络流行的术语——“attention”机制,RPN组件能够告诉网络看向哪里。对于VGG-16模型,检测系统在GPU上的帧率为5帧(包含所有步骤),同时仅用每张图300个proposals取得了PASCAL VOC2007,2012以及MS COCO数据集的最好检测精度。
论文链接
https://arxiv.org/pdf/1506.01497.pdf
代码:
https://github.com/ShaoqingRen/faster_rcnn
https://github.com/rbgirshick/py-faster-rcnn
FPN第一个特征融合网络
期刊日期
CVPR 2017
论文名称
Feature Pyramid Networks for Object Detection
描述
CVPR2017的文章,已经是非常经典的文章了,在很多论文里基本都属于baseline一类的存在,CVPR2018里也有一些论文基于FPN做出了很不错的效果。其实对于做目标检测来说,FPN属于必读的文章,之前也已经了解了算法,但是感觉不自己过一下总是不踏实。
本文主要研究的是针对目标检测中的尺度问题,尤其是小目标检测中存在的卷积神经网络分辨率和语义化程度之间的矛盾问题,并提出了一种特征金字塔网络的解决思路。
论文链接
https://arxiv.org/pdf/1612.03144.pdf
RetinaNet解决类别不均衡问题
期刊日期
ICCV2017
论文名称
RetinaNet: Focal Loss for Dense Object Detection
描述
RetinaNet是2018年Facebook AI团队在目标检测领域新的贡献。
RetinaNet只是原来FPN网络与FCN网络的组合应用,因此在目标网络检测框架上它并无特别亮眼创新。文章中最大的创新来自于Focal loss的提出及在单阶段目标检测网络RetinaNet(实质为Resnet + FPN + FCN)的成功应用。
Focal loss是一种改进了的交叉熵(cross-entropy, CE)loss,它通过在原有的CE loss上乘了个使易检测目标对模型训练贡献削弱的指数式,从而使得Focal loss成功地解决了在目标检测时,正负样本区域极不平衡而目标检测loss易被大批量负样本所左右的问题。
此问题是单阶段目标检测框架(如SSD/Yolo系列)与双阶段目标检测框架(如Faster-RCNN/R-FCN等)accuracy gap的最大原因。
在Focal loss提出之前,已有的目标检测网络都是通过像Boot strapping/Hard example mining等方法来解决此问题的。
作者通过后续实验成功表明Focal loss可在单阶段目标检测网络中成功使用,并最终能以更快的速率实现与双阶段目标检测网络近似或更优的效果。
论文链接
https://arxiv.org/pdf/1708.02002.pdf
代码链接:
https://github.com/facebookresearch/detectron
Mask R-CNNFaster RCNN的进一步改进
期刊日期
CVPR2017
论文名称
Mask R-CNN
描述
一个概念上简单、灵活和通用的对象实例分割框架。在Faster R-CNN的基础上添加了一个预测分割mask的分支。通过添加一个分支来与现有的边界框识别分支并行预测对象掩码,从而扩展了 Faster R-CNN。
论文链接
https://arxiv.org/pdf/1703.06870.pdf
代码链接:
https://github.com/facebookresearch/detectron2
FCOS解决尺度变化太大难以训练的问题
期刊日期
CVPR2019
论文名称
FCOS: Fully Convolutional One-Stage Object Detection
描述
FCOS是典型的one-stage和anchor free结合,并且思路和cornerNet系列的寻找corner不同,借鉴了FCN的思想,通过单个feature上的点来做检测。
论文链接
https://arxiv.org/pdf/1904.01355.pdf
论文代码:
https://github.com/tianzhi0549/FCOS
EfficeintDet将多尺度特征融合和模型缩放结合的高效目标检测网络
期刊日期
CVPR 2020
论文名称
EfficeintDet:Scalable and Efficient Object Detection
描述
本文提出的BIFPN和EfficientDet,通过改进FPN中多尺度特征融合的结构和借鉴 EfficientNet模型缩放方法,提出了一种模型可缩放且高效的目标检测算法EfficientDet。
其高精度版本EfficientDet-D7仅有52M的参数量和326B FLOPS ,在COCO数据集上实现了目前已公布论文中的最高精度51.0mAP!相比于之前的最好算法,它的参数量小4倍,FLOPS小9.3倍,而精度却更高(+ 0.3%mAP)!
论文链接
https://arxiv.org/pdf/1911.09070.pdf
代码:
https://github.com/google/automl
Cascade R-CNN多任务网络模型代表
期刊日期
CVPR2018
论文名称
Delving into High Quality Object Detection
描述
作者从detector的overfitting at training/quality mismatch at inference问题入手,提出了基于multi-stage的Cascade R-CNN,该网络结构清晰,效果显著,并且能简单移植到其它detector中,带来2-4%的性能提升。
论文链接
https://arxiv.org/pdf/1712.00726.pdf
代码:
https://github.com/zhaoweicai/cascade-rcnn
CenterNetone-stage目标检测方法中性能(精度)最好的方法
期刊日期
CVPR2019
论文名称
CenterNet: Objects as Points
描述
本文中,我们采用不同的方法,构建模型时将目标作为一个点——即目标BBox的中心点。我们的检测器采用关键点估计来找到中心点,并回归到其他目标属性,例如尺寸,3D位置,方向,甚至姿态。
我们基于中心点的方法,称为:CenterNet,相比较于基于BBox的检测器,我们的模型是端到端可微的,更简单,更快,更精确。我们的模型实现了速度和精确的最好权衡,以下是其性能:
MS COCO dataset, with 28:1% AP at 142 FPS, 37:4% AP at 52 FPS, and 45:1% AP with multi-scale testing at 1.4 FPS.
用同个模型在KITTI benchmark 做3D bbox,在COCO keypoint dataset做人体姿态检测。同复杂的多阶段方法比较,我们的取得了有竞争力的结果,而且做到了实时的。
论文链接
https://arxiv.org/pdf/1904.07850.pdf
代码:
https://github.com/zhaoweicai/cascade-rcnn
前段时间整理了
2d目标检测的论文
需要来公众号搜索自取
