欢迎光临散文网 会员登陆 & 注册

1.1Faster RCNN理论合集

2022-10-11 17:47 作者:不败阿豪  | 我要投稿

RCNN发展过程

RCNN->Fast RCNN->Faster RCNN



RCNN P1 - 01:53


RCNN算法流程



RCNN P1 - 02:50


1、候选区域生成



RCNN P1 - 03:21


2、对每个候选框提特征

这里CNN是图像分类网络


RCNN P1 - 04:32


3、特征向量分别输入到每一类SVM分类器,判定类别

2000个先验框,4096个特征,20个SVM分类器相当于对20个类别进行判断

下图方便理解



RCNN P1 - 07:36


IOU的概念



RCNN P1 - 09:42


2000x20的每一列对应的是同一个类别的概率,对每一列分别进行非极大值抑制,剔除很多重叠建议框,保留一些gaoz


RCNN P1 - 10:06


4、回归器修正候选框位置

SS算法得到的候选框位置不准确,需要回归器修正候选框的位置



RCNN P1 - 12:10


RCNN算法四个步骤



RCNN P1 - 12:51


过于繁琐,Fast RCNN和Faster RCNN会对模块一步步融合,生成一个端对端的完整网络


RCNN P1 - 13:36




FastRCNN P2 - 00:18




FastRCNN P2 - 01:27


Fast RCNN三个步骤

第二步

RCNN:对每个候选区域分别送入网络得到特征向量

Fast RCNN:将整幅图像输入到CNN网络得到特征图,再通过SS算法在原图生成的候选区域直接映射到特征图


FastRCNN P2 - 03:29


RCNN和Fast RCNN中得到特征的方式区别




FastRCNN P2 - 04:44


数据采样问题:训练过程中,Fast RCNN并不是使用SS算法提供的所有2000个候选区域,只要使用其中一小部分即可。采样数据分为正样本和负样本,正样本是候选框中确实存在所需检测目标的样本,负样本简单理解为背景



FastRCNN P2 - 05:22


为嘛要分正样本、负样本?

猫狗分类器

原论文中从2000个候选框中采集64个候选区域,64个候选区域一部分是正样本,一部分是负样本

如何定义正样本?iou>0.5


FastRCNN P2 - 07:06


用ROI pooling将候选框缩放到统一的尺寸

ROI pooling操作:将特征矩阵划分为7x7=49等分,对每一个区域执行最大池化下采样



FastRCNN P2 - 08:42


Fast RCNN的网络框架

在ROI feature vector的基础上并联两个FC

其中一个FC用于目标概率预测,另一个FC用来目标框回归参数的预测

目标概率预测(分类器):输出N+1类别的概率

边界框回归器:

dx,dy,dw,dh从哪来?



FastRCNN P2 - 11:23




FastRCNN P2 - 13:34


Fast RCNN损失如何计算?



FastRCNN P2 - 14:32


分类损失如何计算



FastRCNN P2 - 15:06


交叉熵损失



FastRCNN P2 - 17:54


边界框回归损失

smooth l1 损失计算链接

https://www.cnblogs.com/wangguchangqing/p/12021638.html


FastRCNN P2 - 21:42




FastRCNN P2 - 23:42


Fast RCNN 对比 RCNN


Fast RCNN比RCNN推理速度快200倍,但是仔细算下来推理一张图片还是需要很长时间的,SS算法在CPU上需要2s左右


FasterRCNN P3 - 00:15


Faster RCNN同样选用vgg16作为主干网络



FasterRCNN P3 - 02:01


Faster RCNN的3个步骤:1、得到特征图 2、RPN生成候选框,投影到特征图上得到特征矩阵 3、将特征矩阵通过ROI pooling层缩放在统一的大小,然后进行展平处理,再通过一系列全连接层得到预测结果




FasterRCNN P3 - 03:30


RPN网络结构



FasterRCNN P3 - 06:30


2k 个scores和4k个coordinates如何影响我们的anchor的



FasterRCNN P3 - 09:02


Faster RCNN给了哪些尺度和比例

9个类别的anchor,k=9


FasterRCNN P3 - 10:23


3x3滑动窗口在原图上感受野的问题

通过一个比较小的感受野预测一个比它大的边界框是有可能的

我们看到物体一部分,也能猜出目标的一个完整的区域


FasterRCNN P3 - 11:49


如何计算ZF网络的感受野




FasterRCNN P3 - 12:27




FasterRCNN P3 - 15:17


定义正样本的方式


FasterRCNN P3 - 18:37


RPN损失计算



FasterRCNN P3 - 21:08


分类损失计算

一、多分类交叉熵损失

二、二分类的交叉熵损失



FasterRCNN P3 - 25:08


边界回归损失



FasterRCNN P3 - 27:03


Faster R-CNN训练

原论文(分步训练)



FasterRCNN P3 - 29:19


Faster R-CNN算法流程


框架越来越简洁,效果越来越好











1.1Faster RCNN理论合集的评论 (共 条)

分享到微博请遵守国家法律