论文阅读笔记——Neural Sensors

2022-01-18 20:12 作者:一零二六- 0人读过 | 我要投稿

论文全名：Neural Sensors: Learning Pixel Exposures for HDR Imaging and Video Compressive Sensing With Programmable Sensors

链接：https://www.computer.org/csdl/journal/tp/2020/07/09064896/1iZGxp3itUY

本文是我在跟老师做冯如杯项目时所阅读的论文，因为觉得这篇论文质量很好，能从中学到不少东西，就决定写一篇阅读笔记。

一、摘要和引言部分

相机传感器依靠全局或滚动快门功能来曝光图像，这种方法对于HDR和高速摄影不好，限制了其传感器捕捉高动态图像和解析高速动态的能力。Spatially varying pixel exposures（可以理解成对每一个像素点进行单独的曝光）是一个进行光学辐照编码和计算恢复场景信息的好方法，但现有的实现这个技术方法并不合适。本文提出neural sensors作为一种方法来优化相机快门功能，结合可微图像处理方法。演示了利用新兴的可编程和可重新配置的传感器处理器来直接在传感器上实现优化的曝光功能。

大多数当前的数码相机的原理都是从以往的模拟相机继承而来的，即都是通过曝光感光元件在固定曝光时间内捕捉图像，现代的相机都是通过全局或者滚动快门来实现的，当前传感器的固定曝光时间严重限制了它们记录表现出高动态范围(HDR)或快速运动的自然场景的能力。（我的理解是一个快门键管了一张图所有像素的曝光，导致一张图中每个点的曝光时间都相等，这就对高动态的图像的拍摄很不好）。

计算摄影技术使我们能够利用光学编码策略和计算图像重建来解决上诉问题，对于高动态图像的重建，可以用多张不同曝光时间的图像来合成；或者用前面说的Spatially varying pixel exposures技术。但这些技术有两大缺点，一是它们通常采用启发式或随机光编码策略，这些策略都是次优的（直接翻译过来的，看不懂）；二是它们通常需要一个高速空间光调制器
(SLM)实现光学编码。SIM比较贵，当它们集成到成像系统中时，会造成笨重的设备形态因素，而且对于传感器来说，要精确地将它们对齐到所需的精度是一个挑战。

ps：关于上文中提到的SIM，我了解了一下其情况。它全称spatial light modulators(空间光调制器)，是一种基于电光、声光、磁光、光折变等光学效应，能对光场的光学参量（振幅、相位、偏振态）进行实时调制，并在此过程中写入信息，协助实现光场调控的有源器件。以它进行HDR的工作有一篇论文可以参考，名叫《基于空间光调制器的HDR图像获取方法》，知网可以搜到。其价格确实比较贵，从几千到几万，也有十万级的，而且搭接SIM需要调很精密的光路，确实不方便。

本文提出了一种端到端的优化策略，联合学习空间变化像素曝光和基于神经网络的图像重建算法HDR和高速成像，本文没有使用SLM来实现这些光学编码，而是建立在新兴的焦平面传感器处理器之上，它们在每个像素上提供同时的传感和处理能力。其框架如下图所示

图1 这是一个encoder-decoder模型，左边的物理层是编码器，右边的数字层是解码器。传感器(物理层)的曝光程序通过解码器(数字层)端到端学习，用于视频压缩感知等应用。下边展示了用原型相机捕获的一个编码曝光，以及从这张显示一个爆炸的气球的图像中重建的几帧高速视频。

二、像素端到端优化曝光和图像重建

1.encoder部分

Encoder部分相当于对相机的拍摄过程进行了模拟。对于相机拍摄图像的每一个像素 $(i%2Cj)$ ,在入射辐照度为 $L_%7Bi%2Cj%7D$ 的情况下，所得到的曝光量为 $E_%7Bi%2Cj%7D(t)%3D%5Cint_%7Bt%7D%5E%7Bt%2B%5CDelta%20t%7DL%20_%7Bi%2Cj%7D(t%5E%7B'%7D)%5Ctimes%20S%20_%7Bi%2Cj%7D(t%5E%7B'%7D)dt%5E%7B'%7D$

上式中 $E_%7Bi%2Cj%7D(t)$ 是曝光量，它决定着相机的相应，即 $I_%7Bi%2Cj%7D(t)%3DR(E_%7Bi%2Cj%7D(t))$ ，其中 $R$ 是相机相应函数， $I_%7Bi%2Cj%7D$ 是相机对每一个像素的响应。作者定义了一个相机函数 $S$ ， $S_%7Bi%2Cj%7D(t)$ 代表了在像素 $(i%2Cj)$ 的位置，在 $t$ 时刻，快门是开还是关。

将上面的式子进行离散化，就能得到 $E_%7Bi%2Cj%7D%3D%5Csum_%7Bn%3D0%7D%5E%7BN-1%7DL_%7Bi%2Cj%7D%5Bn%5D%5Ctimes%20S_%7Bi%2Cj%7D%5Bn%5D$ ，再写成矩阵的形式，即 E=SL，然后作者以参数化 $S_%7B%5Cphi%20%7D$ 的方式表示快门函数，该操作符可以表示几种不同的快门函数，每种函数都由它们自己的有限自由度定义，每一个像素点 $(i%2Cj)$ 都有自己的参数 $%5Cphi%20_%7Bi%2Cj%7D$ 来表示该像素的快门情况。

一些快门函数的示例如下图所示

2.decoder部分

Decoder（解码器）部分实质上就是相机拍摄过程的逆过程，它是一个推测过程。即已知曝光量E，反推出光照的强度 $%5Chat%7BL%7D%3DD_%7B%5Cpsi%20%7D(E)%20$ 。

因此，对于这个encoder-decoder模型，其关键就在于 $%5C%7B%5Cphi%2C%5Cpsi%5C%7D$ 这一组参数的确定。这一过程用神经网络来完成，作者的数据集中找到 K 张ground truth来进行训练，训练的细节见补充材料。

三、可微分可编程的传感器

为了实现使用的优化快门功能，作者使用了一种传感器名叫SCAMP-5，其具体信息见论文，我主要关注整个实现的过程，作者用了一段伪代码来表示。

f函数是编码器，将快门信息S转化为C，C储存了快门S在每个像素的信息。

g函数是解码器，将C再转换回S，所有像素的PE并行计算像素码和全局信号(槽号)的某个解码函数g。一些形式的编码函数和解码函数如下图所示：

由于我做的是高动态图像的项目，所以我更关注这个模型在HDR成像中的应用，作者假设在拍摄HDR图像的过程中，光照强度是不变的，那么前面的式子就可以改写成下面这样

$E_%7Bi%2Cj%7D%3D%5Csum_%7Bn%3D0%7D%5E%7BN-1%7DL_%7Bi%2Cj%7D%5Bn%5D%5Ctimes%20S_%7Bi%2Cj%7D%5Bn%5D%3DL_%7Bcst%7D.%5Cphi_%7Bi%2Cj%7D%5E%7B(b)%7D$

其中 $L_%7Bcst%7D$ 表示恒定的光强，在这种情况下，其快门函数课表示为 $S_%7Bi%2Cj%7D%5E%7B(b)%7D%5Bn%5D%20%3D%20H(%5Cphi_%7Bi%2Cj%7D%5E%7B(b)%7D-n)$ ,即对应图2中的(b)，在所有像素上的快门函数都是从0时刻开始，但它们的结束时间各不相同。