欢迎光临散文网会员登陆 & 注册

Single Image SR Using Lightweight Networks Based on Swin Transfo

2023-06-28 13:43 作者:小xu在岸上等大家 0人读过 | 我要投稿

Single Image Super-Resolution Using LightweightNetworks Based on Swin Transformer（2022，Image and Video Processing (eess.IV)）

文章主要问题

减少图片超分模型复杂度

结论

Innovation

提出两个网络：MSwinSR(SwinIR结构+用MSTB代替RSTB)和UGSwinSR(U-net+GAN with swin Transformer)

MSTB:Multi-size swin Transformer Block
RSTB:Residural swin T燃烧former Block

MSwinSR：用了不同的四个并行注意力窗口,减少了MLP数量，并且通过增加网络宽度来减少网络深度（定量指标PSNR,SSIM更好）
UGSwinSR:用U-net减少计算量（感知指标LPIPS更好）,通过下采样提取图片深层特征，破坏原始图像信息，用Bicubic来得到HR

Network Architecture

SwinIR

复杂度计算

W-MSA复杂度计算：Ω(=W −MSA) = 4hwC2 + 2M 2hwC

LR(h x w x Cin)→【浅层特征提取】→Feature Map(通道数=C)
省略了softmax和bias

RSTB复杂度计算

MSwinSR(SwinIR结构+用MSTB取代RSTB）

All

[x,z,y]表示第1stage个中有x个MSTB+Conv+Residual;第2stage个中有z个MSTB+Conv+Residual;第3stage个中有y个MSTB+Conv+Residual
[2,2,2],其depth=MSTB数量（s表示图片放大比例）

MSTB

四种W-MSA

loss：L1

UGSwinSR include:G+D+U-net

Depth=下采样次数
下采样过程会使得feature map参数量上升，而参数量与之密切相关 ：通过pooling 或 conv strides=2 下采样了以后，输出的长宽变小了，为了防止特征信息丢失，输出通道数要加倍。

G:下采样＋上采样→减少计算量
D:下采样→从生成图和真图中挖掘深层特征
U-net：减少卷积层，减轻计算负担
U-net网络一共有四层，分别对图片进行了4次下采样和4次上采样https://blog.csdn.net/qq_33924470/article/details/106891015

下采样每一层=【两次卷积来提取图像特征】→【池化下采样：把图片减小一半】

第一层=input:572×572×1→【64个3×3的卷积】→64个570×570×1→【ReLU】→570×570×64→【64个3×3的卷积】→【ReLU】→568×568×64→【2×2的池化】→284×284×64
每下一层，卷积核数目增加一倍，即第一层为64个卷积核，第二层为128个卷积核，以此类推

上采样每一层=【两次卷积来提取特征】→【反卷积上采样把图片扩大一倍】

28x28x1024→【512个2×2反卷积】→56x56x512→【把左边下采样时的图片裁剪成相同大小后直接拼过来的方法增加特征层（左半边白色部分的512个特征通道）】→56×56×1024→【512个3x3卷积】→【ReLU】→54×54×512→【512个3x3卷积】→【ReLU】→52×52×512→【256个2×2反卷积】→104x104x256
每上一层，卷积核数目减少一半，
由于每一次valid卷积（3x3）都会使得结果变小一圈，因此每次拼接之前都需要先把左边下采样过程中的图片进行裁剪成相同大小后直接拼过来的方法增加特征层

perceptual loss

loss

L1与L2比较：L2对差异较大的像素值的loss更大,更适合于差异较小的像素值，会导致过于平滑
L1：Mean-Absolute Error，MAE
Experiment

Dataset

CelebA:202599张178x218HR人脸→图像中心裁剪，大小变为178x178→【双立方插值】→256x256→【双立方下采样】→64x64LR
training:10000
validation dataset:100
Setup

Epoch=100
Batch=20
Adam优化器
Learning Rate=0.0002,指数衰减率为0.5和0.999
Embedding Layer后通道数C=60

Result

LPIPS：Learned Perceptual Image Patch Similarity→用于度量两张图之间的差距，也称为Perceptual Loss
与SwinIR相比，MSwinSR增加了0.07dB的PSNR，参数的数量减少30.68%，计算成本可以减少9.936%。UGSwinSR与SwinIR相比可以减少90.92%的计算量。

UGSwinSR的性能随着网络深度上升而下降的原因

可能是由于训练图像尺寸小，过度下采样忽略了图像的整体连续性，而过于关注局部细节

other

SwinIR的优缺点

优点：参数少，重建图像的客观质量高
缺点：

- (1)由于捕捉注意力机制是通过源图像的全局信息来实现的，所以整体重建图像比较平滑，而一些局部细节很难被检测到。这对分辨率较高的图像影响不大，但会大大降低小尺寸图像的感性质量。
- (2) 除了Swin Transformer块，SwinIR还使用了大量的卷积层，这将增加网络中的运算量。如果删除这些卷积层，图像的重建质量将大大降低。
- (3) 为了解决SR的特殊问题，SwinIR取消了Swin Transformer中的降采样操作。这虽然可以减少参数的数量，但也会增加模型的计算量，难以提取图像的深层特征。
- MSwinSR V.S. SwinIR
- SwinIR中每个MSA之后有一个MLP块，而MSwinSR中的MLP是在四个平行MSA之后，因此MSwinSR中的MLP块和参数都比较少。
- MSwinSR确保了网络可以利用不同注意力窗口的平行MSA块所提取的多个特征，而不是单一的MSA。
- 即使其中一些MSA块不能提取有用的特征，MLP块也可以减少权重以防止网络效率低下

标签：

Single Image SR Using Lightweight Networks Based on Swin Transfo的评论 (共条)