聊一聊一些荧幕和现场背后的图像故事(29)--深度图 和深度学习
我们经常会听到一个名词,叫做“深度学习”
那什么事深度学习那
在理解这个概念前,我们先理解一个概念,叫做深度图
RGB-D(深度图像)
深度图像 = 普通的RGB三通道彩色图像 + Depth Map
在3D计算机图形中,Depth Map(深度图)是包含与视点的场景对象的表面的距离有关的信息的图像或图像通道。其中,Depth Map 类似于灰度图像,只是它的每个像素值是传感器距离物体的实际距离。通常RGB图像和Depth图像是配准的,因而像素点之间具有一对一的对应关系。
像素深度和图像深度是两个相互关联但又有所不同的两个概念。像素深度是指存储每个像素所需要的比特数。假定存储每个像素需要8bit,则图像的像素深度为8。图像深度是指像素深度中实际用于存储图像的灰度或色彩所需要的比特位数。假定图像的像素深度为16bit,但用于表示图像的灰度或色彩的位数只有15位,则图像的图像深度为15。图像深度决定了图像的每个像素可能的颜色数,或可能的灰度级数。例如,彩色图像每个像素用R,G,B三个分量表示,每个分量用8位,像素深度为24位
下面可以看到两个不同的深度图,以及从中衍生的原始模型。第一个深度图显示与照相机的距离成比例的亮度。较近的表面较暗; 其他表面较轻。第二深度图示出了与标称焦平面的距离相关的亮度。靠近焦平面的表面较暗; 远离焦平面的表面更轻((更接近并且远离视点)。
立方体结构 深度图:更近更深 深度图:近距离焦距更深

图像深度
图像深度 是指存储每个像素所用的位数,也用于量度图像的色彩分辨率。
图像深度 确定彩色图像的每个像素可能有的颜色数,或者确定灰度图像的每个像素可能有的灰度级数。它决定了彩色图像中可出现的最多颜色数,或灰度图像中的最大灰度等级。比如一幅单色图像,若每个像素有8位,则最大灰度数目为2的8次方,即256。一幅彩色图像RGB三通道的像素位数分别为4,4,2,则最大颜色数目为2的4+4+2次方,即1024,就是说像素的深度为10位,每个像素可以是1024种颜色中的一种。
例如:
一幅画的尺寸是1024*768,深度为16,则它的数据量为1.5M。
计算如下:
1024×768×16 bit = (1024×768×16)/8 Byte = [(1024×768×16)/8]/1024 KB = 1536 KB = {[(1024×768×16)/8]/1024}/1024 MB = 1.5 MB
在计算机视觉系统中,三维场景信息为图像分割、目标检测、物体跟踪等各类计算机视觉应用提供了更多的可能性,而深度图像(Depth map)作为一种普遍的三维场景信息表达方式得到了广泛的应用。深度图像的每个像素点的灰度值可用于表征场景中某一点距离摄像机的远近。
获取深度图像的方法可以分为两类:被动测距传感和主动深度传感。
In short:深度图像的像素值反映场景中物体到相机的距离,获取深度图像的方法=被动测距传感+主动深度传感。
在计算机视觉系统中,三维场景信息为图像分割、目标检测、物体跟踪等各类计算机视觉应用提供了更多的可能性,而深度图像(Depth map)作为一种普遍的三维场景信息表达方式得到了广泛的应用。深度图像的每个像素点的灰度值可用于表征场景中某一点距离摄像机的远近。
获取深度图像的方法可以分为两类:被动测距传感和主动深度传感。
In short:深度图像的像素值反映场景中物体到相机的距离,获取深度图像的方法=被动测距传感+主动深度传感。
被动测距传感
被动测距传感中最常用的方法是双目立体视觉[1,2],该方法通过两个相隔一定距离的摄像机同时获取同一场景的两幅图像,通过立体匹配算法找到两幅图像中对应的像素点,随后根据三角原理计算出时差信息,而视差信息通过转换可用于表征场景中物体的深度信息。基于立体匹配算法,还可通过拍摄同一场景下不同角度的一组图像来获得该场景的深度图像。除此之外,场景深度信息还可以通过对图像的光度特征[3]、明暗特征[4]等特征进行分析间接估算得到。

上图展示了Middlebury Stereo Dataset中Tsukuba场景的彩色图像、视差实际值与用Graph cuts算法得到的立体匹配误差估计结果,该视差图像可以用于表征场景中物体的三维信息。
可以看到,通过立体匹配算法得到的视差图虽然可以得到场景的大致三维信息,但是部分像素点的时差存在较大误差。双目立体视觉获得视差图像的方法受限于基线长度以及左右图像间像素点的匹配精确度,其所获得的视差图像的范围与精度存在一定的限制。
In short, 常用于深度图像增强领域的测试数据集Middlebury Stereo Dataset属于被动测距传感;被动测距传感=两个相隔一定距离的相机获得两幅图像+立体匹配+三角原理计算视差(disparity)
主动测距传感
主动测距传感相比较于被动测距传感最明显的特征是:设备本身需要发射能量来完成深度信息的采集。这也就保证了深度图像的获取独立于彩色图像的获取。近年来,主动深度传感在市面上的应用愈加丰富。主动深度传感的方法主要包括了TOF(Time of Flight)、结构光、激光扫描等。
TOF相机
TOF相机获取深度图像的原理是:通过对目标场景发射连续的近红外脉冲,然后用传感器接收由物体反射回的光脉冲。通过比较发射光脉冲与经过物体反射的光脉冲的相位差,可以推算得到光脉冲之间的传输延迟进而得到物体相对于发射器的距离,最终得到一幅深度图像。
TOF相机所获得的深度图像有以下的缺陷:
1. 深度图像的分辨率远不及彩色图像的分辨率
2. 深度图像的深度值受到显著的噪声干扰
3. 深度图像在物体的边缘处的深度值易出现误差,而这通常是由于一个像素点所对应的场景涵盖了不同的物体表面所引起的。
除此之外,TOF相机的通常价格不菲。

结构光与Kinect
结构光是具有特定模式的光,其具有例如点、线、面等模式图案。
基于结构光的深度图像获取原理是:将结构光投射至场景,并由图像传感器捕获相应的带有结构光的图案。
由于结构光的模式图案会因为物体的形状发生变形,因此通过模式图像在捕捉得到的图像中的位置以及形变程度利用三角原理计算即可得到场景中各点
的深度信息。
结构光测量技术提供了高精度并且快速的三维信息,其在汽车、游戏、医疗等领域均已经得到了广泛的应用。
基于结构光的思想,微软公司推出了一款低价优质的结合彩色图像与深度图像的体感设备Kinect,该设备被应用于如人机交互(Xbox系列游戏机)、三维场景重建、机器视觉等诸多领域。

微软公司的Kinect有三个镜头,除了获取RGB彩色图像的摄像机之外,左右两边的镜头分别是红外线发射器和红外线CMOS摄像机,这两个镜头共同构成了Kinect的深度传感装置,其投影和接收区域相互重叠,如下图所示。

Kinect采用了一种名为光编码(Light Coding)的技术,不同于传统的结构光方法投射一幅二维模式图案的方法,Kinect的光编码的红外线发射机发射的是一个具有三维纵深的“立体编码”。光编码的光源被称为激光散斑,其形成原理是激光照射到粗糙物体或穿透毛玻璃后得到了随机的衍射斑点。激光散斑具有高度的三维空间随机性。当完成一次光源标定后,整个空间的散斑图案都被记录,因此,当物体放进该空间后,只需得知物体表面的散斑图案,就可以知道该物体所处的位置,进而获取该场景的深度图像。红外摄像机捕获的红外散斑图像如下图所示,其中左侧的图片展现了右侧图片中框中的细节。

Kinect低廉的价格与实时高分辨率的深度图像捕捉特性使得其在消费电子领域得到了迅猛发展,然而Kinect的有效测距范围仅为800毫米到4000毫米,对处在测距范围之外的物体,Kinect并不能保证准确深度值的获取。Kinect捕获的深度图像存在深度缺失的区域,其体现为深度值为零,该区域意味着Kinect无法获得该区域的深度值。而除此之外,其深度图像还存在着深度图像边缘与彩色图像边缘不对应、深度噪声等问题。Kinect所捕获的彩色图像与深度图像如下图所示。

Kinect所捕获的深度图像产生深度缺失区域的原因多种多样。除了受限于测距范围,一个重要的原因是目标空间中的一个物体遮挡了其背后区域。这种情况导致了红外发射器所投射的图案无法照射到背后区域上,而背后区域却有可能被处在另一个视角的红外摄像机捕捉到,然而该区域并不存在散斑图案,该区域的深度信息也就无法被获得。【Oops,原来遮挡是这样导致了深度值缺失,作者果然厉害,两句话让人茅塞顿开!】物体表面的材质同样会影响Kinect深度图像的获取。当材质为光滑的平面时,红外投射散斑光束在物体表面产生镜面反射,红外摄像机无法捕捉该物体反射的红外光,因此也就无法捕获到该表面的深度;当材质为吸光材料时,红外投射散斑被该表面所吸收而不存在反射光,红外摄像机同样无法捕捉到该表面的深度信息。【材质对深度缺失的影响,分析到位】除此之外,Kinect所捕获的深度图像存在的与彩色图像边缘不一致的问题主要是由彩色摄像机与红外摄像机的光学畸变引起的。
激光雷达
激光雷达测距技术通过激光扫描的方式得到场景的三维信息。其基本原理是按照一定时间间隔向空间发射激光,并记录各个扫描点的信号从激光雷达到被测场景中的物体,随后又经过物体反射回到激光雷达的相隔时间,据此推算出物体表面与激光雷达之间的距离。
激光雷达由于其测距范围广、测量精度高的特性被广泛地用于室外三维空间感知的人工智能系统中,例如自主车的避障导航、三维场景重建等应用中。下图展示的是激光雷达Velodyne HDL-64E在自主车中的应用,该激光雷达能够获取360°水平方向上的全景三维信息,其每秒能够输出超过130万个扫描点的数据。全向激光雷达曾在美国举办的DARPA挑战赛中被许多队伍所采用,其也成为了自主行驶车辆的标准配置。

然而,激光雷达所捕获的三维信息体现在彩色图像坐标系下是不均匀并且稀疏的。由于单位周期内,激光扫描的点数是有限的,当把激光雷达捕获的三维点投射到彩色图像坐标系下得到深度图像时,其深度图像的深度值以离散的点的形式呈现,深度图像中许多区域的深度值是未知的。这也就意味着彩色图像中的某些像素点并没有对应的深度信息。





什么是红外线成像
比0.78微米长的电磁波位于可见光光谱红色以外,称为红外线,又称红外辐射。是指波长为0.78—1000微米的电磁波,其中波长为0.78—2.0微米的部分称为近红外,波长为2.0—1000微米的部分称为热红外线。自然界中,一切物体都可以辐射红外线,因此利用探测仪测量目标本身与背景间的红外线差可以得到不同的热红外线形成的红外图像。
在夜间观察遇到的最大难点是光强不足及对比度差,在夜视技术没出现之前或技术不发达时,单凭人眼是很难在夜间观察目标及环境的,因此,夜间也就成为非法活动如抢劫、恐怖活动等频繁发生时间段。据统计,世界上47%的暴力犯罪案件发生在晚6点到早6点之间。原因很简单,在夜幕的笼罩下,罪犯分子易于隐蔽,易于接近受害者,犯罪场面也不容易被看见。夜间同样是军事活动的频繁发生时间,如夜间行军、劫营、伏击等,我军在抗战及解放战争期间就是以夜战出名。现代战争中,美国都是选择在夜间发动战争的,如伊拉克战争等,原因就是对方没有夜视技术,而美方装备有先进的夜视设备,进行一场不对等的战争。
夜视技术分类:微光夜视、红外夜视,激光夜视。
用于夜间观察的微光和红外夜视装置一般由信号接收、转换、处理和显示等部分组成。实现夜间观察不同的技术方案,都要在这四大部分上反映出来。
在微光图像增强器中,用光电阴极将微弱的可见光和近红外光图像转换成相应的电子密度图像,其光阴极是连续和均匀的一个薄膜。在热像仪中,用若干个分离探测元组成的探测器列阵将红外光转换成电信号。
微光成像器件的信号处理的特点:(1)信号并行处理;(2)信号在空域处理;(3)信号是电子数量;(4)信号是模拟量;(5)信号原位处理。在半导体、微电子技术还不发达时,电真空技术的这些特点占尽优势,成为夜视技术的主流。
热像仪焦平面组件的信号处理的特点:(1)信号串行处理,(2)信号在时域处理,(3)信号是电脉冲电平值,(4)信号是数字量,(5)信号分离处理,便于进行复杂的图像处理以获得更多的信息。半导体、探测器材料、微电子、微电机等技术的进步,使采用采用焦平面技术的红外热像仪成为夜视技术的主流。
微光图像增强器图像显示的特点:(1)采用CRT显示,(2)图像直接显示,(3)屏幕面积有限,有几至几十平方厘米,(4)只能单屏幕显示。
热像仪图像显示的特点:(1)显示器件种类多,有CRT、LED列阵、液晶、等离子体等,应用灵活;(2)图像可直接、间接、混合显示,对系统的适应性好;(3)屏幕面积可大可小,从几平方厘米至几十平方米;(4)可多屏幕显示;(5)可在屏幕中加入其它信息,如直接显示温度信息等。

按成像原理和制造技术,夜视技术可分为:
1、微光夜视
2、红外夜视
从上面的分析的技术特点来看,被动红外热成像夜视仪是夜视设备的主流,特别是红外热像仪技术已长足发展及成本大幅度降低的今天,军方主流的光电观瞄设备都是三光合一,即集成可见光、热像仪、激光测距机。微光夜视主要是应用于某些特殊场合或者配合热像仪使用,主动红外由于易于暴露及探测距离不远的原因,主要运用于民用的低端领域。

问题1:深度图怎么用
深度图很好的解释了红外线成像的原理,以及类似现象设备成像原理,

有了深度图我们就可以从最简单的的形式来的到距离,热量,透视这些关系图
应用
便携式近红外脑成像系统
近红外光谱技术(NIRS)主要依赖于人体组织的两大特征。首先是近红外范围内人体组织对光的相对透明度,其次是血红蛋白的氧合依赖性吸光度。基于这些原理,Brite可以监测被试的大脑活动:
• 非侵入式测量
• 持续记录和反馈
• 价格合理
• 无线测量,室内、室外均可使用
• 易于设置和操作





应用领域
近红外光谱技术(NIRS)用于许多研究领域,可以测量含氧血红蛋(O2Hb)、脱氧血红蛋白(HHb)和总血红蛋白(tHb)浓度变化;假设血液中血红蛋白的浓度是恒 定的(在测量过程中),tHb可以用作血容量的标识。
Brite MKII是近红外光谱技术(NIRS)设备的一种,备受世界各地研究学者的青睐, 应用领域极其广泛, 例如:
• 脑氧合监测
• 体育科学研究
• 功能研究
• 脑科学研究
• 超扫描研究
• 其它相关研究等

问题2:深度图怎么制作
深度图分三种种,法线贴图光照图和透视图



计算机显卡深度学习的本质,就是通过计算机算法得到深度数据的过程本身
所以有的时候 传达的信息可能都不是作者希望表达的内容,也无法提及是否是还原


深度图信息是有助于我们理解能量,透视而存在的,适用范围属于高级影像处理
和光学情报领域,但因为不受限于气候,光源的特点,在获得认知图形的角度来说
又有独特的应用。