Dancing under the stars: video denoising in starlight CVPR 2022
解决问题:
超低光环境下的真实视频去噪问题。主要亮点在于其建模噪声的思路可以借鉴。
主要:
使用GAN模型,基于真实clean-noise图片对,生成"噪声生成"模型,使用该模型去模拟拍摄过程中生成的噪声。再对拍摄的clean图像添加该噪声,使用一个BasicVSR网络进行监督视频去噪。
其噪声模型建模思想源自于下面这两篇文章:


CMOS photosensors: review and tutorial
starlight 的主要流程:

1. 基于自己拍的静态图片对,用GAN建模真实噪声模型。
2. GAN生成噪声加到clean的视频序列上成对,用网络做视频去噪。
* GAN的噪声建模成功,有一定理论上的依据,而且从结果上看效果好。局限:要成对的数据来学习噪声分布,噪声模型只能模仿单一参数设置的噪声。在原文代码中,是使用的自行设置超参数的形式在添加噪声,是一个极强的先验,而后续的U-Net可以理解成添加了大量参数的网络,使其能“过拟合”到特定的数据分布下,可以预想到的是这个模型的泛化性会极差,不过文章故事讲的还挺完整。

Thinking:
1. 原论文基于照片对建模噪声模型,并使用直接相加的方式应用到视频去噪中。
2. 建模方式可以不一样,比如此文章就比之前的模型多加入了clipping , fixed pattern noise, and banding noise。
3. 是否可以基于视频噪声去建模,连续帧的噪声分布或许具有一定关系,这是用图片对建模无法考虑到的,刚好我们手里有这样的数据集可以使用。
4. 他的噪声建模在特定相机和参数设置下, 可以扩大Noise Generator的模型,使其适用于多个摄像机增益/ISO。
5.他使用的方法--- WGAN-gp比较简单,可以改进,用其他GAN模型(recycle?)或者normalizing flow model尝试。
6.他是两阶段,是否可以整合成单阶段。