欢迎光临散文网 会员登陆 & 注册

经典的视频超分辨率方法EDVR讲解-不听就亏了

2022-08-14 16:09 作者:不败阿豪  | 我要投稿

一、整体架构

1、PCD作用:帧对齐

2、TSA作用:施加Attention,并实现特征聚合

3、reconstruction:特征重构

EDVR vs RNN:RNN多帧输入多帧输出

EDVR多帧输入单针输出,

潜在影响:运行效率低一点

二、EDVR核心模块:deformable conv

deformable conv放置目的:i帧和t帧对齐

input特征图:假设通道数N,放到卷积中得到2N特征图表示,为甚2N?相当于让特征图上每一个像素学习到(Δx,Δy)的分量,2*特征通道数N=2N

每个特征图上每个pixels都能学到,当卷积到特征图绿色区域中心点(红色所示),看相邻点到底便宜到哪里

以前的卷积核是一个连续的近邻区域

对齐两针

正常卷积:卷积核尺度有限,无法捕获两个小人共同区域,没办法计算

deformable卷积:知道小人位置在哪,直接对齐到那个位置

光流法:对齐后的T+i帧与真正意义上的T+i帧,物体位置大致一样

deformable:通过偏移量实现帧对齐

光流法vs deformable

1、光溜的可解释性更强,光流明确描述了两者运动,通过光流算法or网络,可以明确提取到光流特征;deformable是自适应学到的offset表示,offset未必描述运动体,可能描述其他东西

2、deformable灵活性高

3、deformable是local的方式,而光流法是global的

下图这种方式不能很好地学到offset,因为我虽然看到了T+i帧中的物体,但是我不能这个物体在T帧中哪个位置,也就是说感受野不够大,所以这种情况下offset对应不准,这是由于基层卷积带来的感受野的局限导致的

金字塔结构用了一个多尺度信息,有一个下采样操作,卷积核还是那么大,特征图变小了,感受野变大了,就能捕获到offset对应关系

虽然用金字塔结构,但是还是有些东西捕获不到(有极限),所以是local的;而光流网络很深,同时也采用层级话的结构,网络很深,感受野很大,基本上可以cover全图的运动

三、TSA融合

1、t,t+1帧:通过卷积学到embedding

2、dot product作用:相似度计算,t+1帧在空间上和t帧有多相似

3、根据相似度对不同的域施加attention,然后fushion

四、上采样

五、创新(怎么改)

数量级非常大,权重很多,冗余

该:减东西,模型压缩、模型蒸馏

basicVSR也指出这一问题

没有进行对比实验


可以考虑对特征图上的点进行操作

训练阶段two-stages



经典的视频超分辨率方法EDVR讲解-不听就亏了的评论 (共 条)

分享到微博请遵守国家法律