目标检测领域如何水一篇论文,怎样学能快速出结果?迪哥精讲YOLO全系列、DTER

位置误差:选择IOU最大的候选框

x,y,w,h参数的误差

置信度损失:分类考虑

背景部分加权重参数的含义

类别误差

NMS:解决候选框重叠,选置信度最大的

YOLOv1的问题

1、重叠检测不到
2、小目标检测效果差

YoLov2的BN

BN做了什么
但凡有了conv都要加BN
v1为什么不用448训练

网络结构

vs 1代

1x1 卷积的作用
yolov2先验框设计

加不加先验框对结果的影响

虽然结果变化不大,但是查全率更高
坐标的改进

相对值

感受野是干嘛的

感受野对卷积核的要求

卷积核大点好还是小点好

小的好,参数少
特征融合的目的

v2多尺度

v3的改进

v2是如何处理多尺度的:一股脑融合

好吗?
v3改进:术业有专攻

具体细节

每个特征图分别对不同大小的物体检测,各设置3个先验框
如何融合

尺度变换方法
1、图像金字塔:速度慢,不适用于yolo 2、单一的结果(适用于哟咯)

3、分别利用不同特征图信息(52*52的不一定能预测的好)
4、融合特征图

v3网络结构:没有FC和BN

卷积省时省力,效果好,别的东西能不用就不用



先验框的效果

softmax改进:一个物体可能属于多个标签

v4两个核心方法

网络设计:1、提特征 2、特征融合(注意力机制等小细节)3、头

BOF

数据增强

四个图像拼接的目的:batch不变(考虑显存),batch-size变为原来的4倍
增加噪音干扰

dropout是什么:随机杀掉一些点,难度太低

dropblock

标签平滑

不做标签平滑vs做

IOU损失

问题:有时候相同的IOU反映不出情况好坏
IOU=0,1-Iou=1,梯度=0,无法训练
IOU升级GIOU

问题:重叠时检测不到
DIOU:没用

CIOU:比DIOU多考虑长宽比


SPPnet

CSP(很重要)

CBAM
通道注意力:得到每一个类别对应的权重值

v4引入的是SAM
对SAM的修改

FPN的故事

FPN前言:图像金字塔

FPN的特征融合


1X1卷积:保证特征图个数相同

FPN的问题:缺了底层到高层的特征传递
双向?费时间 引入pan


激活函数:改进relu

后处理

v4网络架构

v4贡献回顾
