聊一聊一些荧幕和现场背后的图像故事(2)——数字环境(影像篇)
不知道大家从下有没有一个经验
视频文件,就是这样成立的,它是非常非常多的图片连续变换,在视觉上迷惑让人以为它“在动”了的感觉,
那么,和图像不同,如果说绘画摄影是空间的艺术,诗词歌赋是时间的艺术,那么视频就是兼顾两者特性的事物了
今天,我们来聊聊他
时间轴
和单张的图片不同的是,视频师连续的图片的组合,所以它存在时间意义上的单位,就是时间轴,
帧速率

也通常被描述为每秒帧数(FPS),指每秒所显示的静止帧格数。对影视制作人而言,它是你在拍摄时选择的第一个设置:24,25,30。24FPS被视为“电影”帧速率的标准。30FPS广泛应用于北美洲、日本、南亚,25FPS是欧洲、中国的广播电视级标准。 例如下面这个时长一秒的电影片段:

将这个镜头一帧帧的分开,每帧画面就代表1/24秒。
那么问题来了:为什么是24?为什么不是22,23,28.59?你的经验告诉你大部分电影制作人会选择24FPS,那么为什么我们要使用24FPS拍摄?
对于人眼来说,我们每秒可以感知十到十二帧图像,一旦每秒钟有更多的图像通过,每个图像之间的间隙就缩短,我们的大脑就会将图像识别为运动。心理学家马克斯·韦特海默(Max Wertheimer)首次发明了Phi Phenomenon(飞现象)。
从20世纪早期到20世纪20年代,帧速率是没有工业标准,没有规则的。电影公司的为了获得最佳利益,必须保持帧速率尽可能的低,因为帧率越高,使用的胶片就越多,使用的胶片越多,所需的成本就越高。虽然更高的帧速率会产生更好的视觉持久性,但是16FPS还是成为了无声电影的非官方标准。 至于电影工业史上帧速率的发展变革,直到今天我们为何以24FPS作为行业标准,通过下面的视频讲解,可以更深入的体会到。 rame src="https://v.qq.com/iframe/preview.html?vid=j0644qun1rq&width=500&height=375&auto=0">rame> 选择24FPS,这其中还牵扯到一点基本数学,24是一个容易被整除的偶数,剪辑师会在瞬间算清楚半秒是12帧,1/4秒6帧...... 聊完了电影帧速率的原理及发展历程,该回到当下了,那么我们在平时的影视创作中该如何选择帧速率呢?
24fps(电影拍摄) 20世纪20年代末的电影公司以24帧作为行业标准,以这个标准拍摄电影不仅成本能达到最低而且还能带来不错的观影体验。现在大多数电影也都基本按这个标准来进行拍摄,较低的帧率能捕捉到更多的运动模糊,让动作显得更为真实和流畅。当然为了追求更为极致的视觉体验,有些电影也选择了更高的帧速率,例如《霍比特人》,《阿凡达2》采用48帧拍摄,48帧放映,《比利林恩的中场战事》采用120帧拍摄,120帧放映。 25/30fps(适用于电视拍摄) 美国电视的制式自古以来是30fps,
广播电视实际是29.97fps。选择30fps是为了与美国电力标准60赫兹同步,这个格式常被叫做NTFS。在欧洲,这个制式是25fps,因为欧洲电力标准是60赫兹,这种制式叫PAL。网络视频一般是30fps,或者60fps。
50/60fps(适用于运动类动作拍摄) 50fps和60fps非常适合运用在快速动作的拍摄上。拍摄完成之后你还可以通过后期制作进行帧速率转换,让较高的帧速率慢慢降低到30fps然后变成一个慢动作视频。
120/240fps(慢动作) 超高的帧率能够让慢动作镜头产生极端的效果,根据你的摄影机参数设置的上限可以拍摄120fps或240fps的慢动作。
2.通道/色彩信息
如果说只是时间的组合还无法在数字环境解释图像信息,那么通道的概念就是定义了图像的信息在数字环境被保存的方式
图像的表示方法:RGB模型 vs YUV模型 光的三原色是红(Red)、绿(Green)、蓝(Blue)。现代的显示器技术就是通过组合不同强度的三原色,来达成几乎任何一种可见光的颜色。图像储存中,通过记录每个像素红绿蓝强度,来记录图像的方法,称为RGB模型 (RGB Model) 常见的图片格式中,PNG和BMP这两种就是基于RGB模型的。
这个在不同的的色彩管理方案下



sRGB: 在互联网上最常用的色域, 以 Rec. 709 格式的色彩空间作为标准, 是显示器最基础的标准. 作为消费者, 只要记住这个色域只要能覆盖到 95% 以上, 那就意味着互联网上 95% 以上的内容的颜色都能被覆盖到.
DCI-P3: 是电影行业的色彩规范. 它在目前电子产品/显示器里有个近似标准, Display P3. 这就是 Apple 带领的新标准. 所有 Apple 产品(除了低端的 MacBook Air/iPad), 最近几年带 Pro 的产品和 iPhone 均兼容此标准.
Rec. 2020: 类似 Rec. 709, 这仍然是一个电视机行业所提倡的色彩空间的标准. 整体能够覆盖 P3, 所以在制作内容时会选择以这个标准进行记录, 然后导出为 P3 色彩.
Adobe RGB: 一个面向出版物的色彩空间. 基本完全覆盖 sRGB, 但是和 P3 色域不同, 两者在 sRGB 外覆盖的地方有所差异. 主要是因为出版物通常采用四基色系统(青色, 洋红, 黄色, 黑)进行印刷, 呈现的色彩空间也叫 CMYK 色彩空间. 为了在显示器上呈现接近出版物的颜色, 制定了这个标准.
当然还有一个很多笔记本厂商所说的 NTSC 的标准. 本质是当初全球电视机标准 PAL/NTSC 标准之一. 相比 PAL 覆盖了过多的色彩空间, 然而当时的 CRT 电视无法呈现, 非编剪辑系统也达不到这个要求, 得到了花名「Never The Same Color」 「Never Twice the Same Color」 「No True Skin Colors」即「无法显示相同的颜色」.
一般的mac笔记本的显示器可以达到67% 的adobe rgb,最好的apple thunderbolt display可以达到77%
而通道就是用来解释这个色彩通道,音频通道,以及所谓的透明通道(Alpha通道)的元素
R通道:红色通道,表示了在所能显示的红色动态范围内,当前画面对于红色的表现
B通道:蓝色色通道,表示了在所能显示的蓝色动态范围内,当前画面对于蓝色的表现
G通道:绿色通道,表示了在所能显示的绿色动态范围内,当前画面对于绿色的表现
音频通道:表示了当前时间轴的音频数据
Alpha通道:透明通道,表示了此通道信息以“叠加方式计算”,代指没有色彩信息(在后期合成阶段非常非常的实用)
我们现在的用的做多的系统也叫非编系统, 全称「非线性编辑系统」, 是现代数码编辑的基本模式. 而早期使用胶片记录的时代就属于「线性编辑」. 最大的区别就是后者, 记录依赖于胶片母带, 当我们进行编辑的时候需要将它剪开(破坏), 所以就有大量的麻烦. 但是很显然, 胶片和我们现在数码的采样过程不一样, 更多的是拍摄和冲洗的工艺. 这也是胶片所特有的技术. 但是胶片其实也有着相比普通传感器更大的宽容度, 所以不少导演仍旧中意胶片.
而现在的相机通常是基于 CCD/CMOS 传感器进行记录, 通常就会提到所谓像素、色彩深度和采样频率的概念. 一个像素包含了三种基础颜色, 也就是 RGB, 红绿蓝. 传感器就会提供像素的矩阵, 也就是我们见到的画面.

而一个像素里面的每种基础颜色用到的数据量, 也叫做色彩深度(color depth), 最常见的量化数量是 8bit, 较高的就是 10bit. 通常来说, 在 8bit 0, 0, 0 代表最黑, 而 255, 255, 255 代表最白. 而凡是以 x, x, x 这样形式出来的颜色做成一个排序, 就是从最黑到最白的那么一个序列. 三种原色之间的比例只要不发生变化, 整体高低的变化就不会影响到颜色, 只有影响到亮度. 而很显然, 如果使用了 10bit, 最大的量化空间就能表示到 1023, 1023, 1023.


因为实际的不同显示器能够包含的色彩范围是不同的,但在加工和存储层面,我们应该讲自己的工作环境改装为能够相对覆盖足够色彩深度范围的设定会比较便利
3.动态范围(亮度/对比度/饱和度信息)
图像编码和音频编码一样,不可能不计算容量的进行记录,所以,在最终被保存的阶段,这个数据会被保留在一个合适的格式和信息范围内,这个范围就是图像的动态范围

硬件上限制数字成像系统动态范围的主要元件是图像传感器(sensor),CCD/CMOS传感器的动态范围定义为饱和电荷量Qs与最小可探测电荷量Qd的比值如下。sensor动态范围主要受光敏器件的灵敏度、满阱容量和噪声水平等因素限制,而且传感器面积一定的条件下,提高像素数目与提高动态范围相互矛盾。因此在不减少图像传感器像素数目的条件下,提高动态范围需要增大图像传感器的面积,成本将会增加,成像系统的结构也可能受到影响。

硬件扩展的另一方案是通过改变光学系统结构或添加其他元件改变图像传感器接收光能量,经后期处理实现动态范围扩展。如利用分光棱镜使入射光线在不同的靶面成像,采用不同灵敏度的传感器接收或设置不同的电路增益,再利用多个传感器获得的不同图像生成一幅高动态范围图像。
因此,从硬件上扩展系统动态范围具有非常高的技术难度, 目前主要是几家CCD/CMOS生产商在进行研究,还没有成熟可靠的方案。而且上述方法需要对相机或图像传感器进行改造,甚至重新设计,在硬件设备上花费了大量精力,制造成本也大大提高,不宜在一般的科研项目中采用。
2 软件扩展方法
软件扩展方法原理:对被摄场景进行多次曝光成像,通过设置不同的曝光时间,改变系统探测的亮度范围,获取多幅不同曝光度的图像,最后通过软件方法将它们合成一幅高动态范围图像,恢复场景的细节信息。如下图:

目前软件扩展方法主要有两种:基于相机响应函数(CRF)的辐照度重建和多曝光图像融合。
2.1 辐照度重建方法
辐照度重建方法处理过程:静态场景拍摄多幅不同曝光度的低动态范围图像,利用图像信息推算成像系统的响应函数,再通过响应函数逆运算得到场景的相对辐照度,用以合成高动态范围图像,并以浮点数保存。其中,相机响应函数求解是关键
的步骤 。

(1) 设相机和拍摄场景均处于静态,且曝光时间足够短,从而可以忽略拍摄过程场景的亮度变化 在多次曝光成像中,假设j次曝光时间为△t(j)。第i个像素接收的场景辐照度为E(i),在获得的第j幅图像中,其像素值为Z(i,j),公式如下:

(2) 假设相机响应函数是一定区间下单调连续,即f函数可逆:

(3) 上述函数左右取对数,可得到:

(4) 设置函数g = lnf-1,可简化为:

Delta t(j)和Z(i,j)为已知,函数g(z)和辐照度E(i)未知,其中Z(i,j)取值为离散且有限的,因此我们并不需要求解g(z)的完整解析式,只需在Z的取值范围中恢复g(Z)的有限个取值即可。假设像素值的最大值和最小值分别为Zmax和Zmin。像素采样点为N,曝光次数为P。为了确定(Zmax-Zmin+1)个g(z)和N个E(i)的值,使之满足上述公式,定义如下目标函数:

目标函数第一项是为了使所求得的解具有最小的方差,第二项则是对函数g进行平滑约束,其中r为平滑约束权重。此外,在过度曝光和曝光不足的区域,受传感器动态范围及噪声影响,像素点的输出值往往不够稳定。为此,引入权重函数W(z),衡量像素值的可信程度,减小边界采样对求解函数g的影响。

此时目标函数修改为:

至此,函数g的求解变为目标函数的最小化问题。由于甙z)的取值有限,只要选取足够的采样点,就可以将目标函数转化为一个超定方程组,可以通过奇异值分解求得甙z)的最小二乘解,进而利用单调性计算出相机响应函数。如下一组多曝光LDR图计算后的相机响应函数如下:


(5) 根据上述步骤即可得到相机的响应函数,则场景相对辐照度计算较为容易,如下式:

通常,为了降低图像噪声及饱和像素值的影响,在计算第i个像素对应的辐照度时,尽可能地利用其在所有输入图像中的像素值,并再次引入权重函数w(z)。通过如下公式计算:

在获得场景的相对辐照度数据后,将其以特定的图像格式存储,一就得到了场景的高动态范围图像。在处理彩色图像时,可以有两种方法。一种方法是分R、G、B三个颜色通道计算相机响应函数,求出各通道对应的相对辐照度,最后调节比例参数进行白平衡处理。另一种方法是,将RGB图像转换至HSV空间,恢复V通道的高动态范围数据。
2.2 多曝光图像融合
辐照度重建法合成的HDR图像质量十分地依赖于相机响应函数的计算精度,拍摄过程相机抖动或景物微小移动会对计算结果造成较大影响,因此最新提出了多曝光融合方法。从图像融合的角度出发,从曝光度不同的LDR图像序列提取信息合成一幅高质量LDR图像,其视觉效果相当于一幅局部自适应曝光的“高动态范围图像” 。常见的多曝光融合方法可以分为像素级融合、特征级融合 、决策级融合 。
像素级融合主要针对原始图像数据进行融合,融合前未进行图像综合分析与处理。这一层次的融合数据准确性最高,能够提供丰富、可靠的细节信息,应用最为广泛 。
特征级融合则针对图像特征信息进行融合。首先从原始数据中提出特征信息,如边缘、纹理、运动方向、视觉显著性等,然后进行特征分析与综合处理。相比于像素级融合,特征级融合能够降低噪声影响,提高鲁棒性。
决策级融合是层次最高的信息融合,模拟人类学习与思考过程,对图像信息进行逻辑推理与统计分析,设定一定规则对信息进行融合。
本文描述的是基于曝光适度评价的快速融合,属于特征级融合范围。曝光适度评价的快速融合是指使用权值图对不同曝光度图像序列进行加权融合,因此,高效确定融合权重值的成像质量评价标准是算法研究的关键。算法流程如下:


(1) 曝光适度评价
早期曝光适度评价方法:以像素的归一化像素值与O,5的接近程度评价曝光适度,其评价数值体现为像素的融合权重分量,并利用高斯模型进行计算,权重值计算如下:

该权重公式可以尽可能地保留每幅输入图像中像素值在0.5附近的像素信息,这样容易丢失场景灰暗和明亮处的细节。因为以固定值0.5作为最佳像素值不能显著区分这些区域内不同像素间的差异,不利于提取区域内的细节信息。 因此为了保证图像信息没有丢失,将0.5修改为像素均值方式。对于同一场景的N幅不同曝光度图像,以I(i,x,Y)表示第i幅图像中坐标为(x,Y)处的像素,其曝光适度评价指标为:

其中:

从上述公式中,一方面,为保证较为理想的人眼视觉感受,u(x,y)的取值应在0.5附近;另一方面,为体现场景真实的亮暗对比信息,需从场景有限次数的采样中近似地获取其亮度信息。u(x,y)取O.5与该均值的加权和,权重因子p为细节信息与亮暗对比信息平衡
参数。
(2) 分块处理
根据实验测试验证,若使用上述曝光适度评价方法获得的权重值对输入图像直接进行加权融合,生成图像会出现像素值变化过快、颜色异常的现象 ,如下图:

基于图像区域分析的融合算法具有较高的鲁棒性,将图像划分为不同区域,并将上述曝光适度评价方法应用于图像分块区域,既能保留景物的局部特性,又能避免随机噪声影响,同时还可以大幅度提高计算效率。将图像分割为均匀大小的矩形分块。将每幅输入图像分割为b×b大小的M个矩形分块,以B(i,j)表示第i幅图像的第j个分块。为了综合图像的局部特性,计算每个分块的像素值均值 :
利用上述曝光适度评价方法对分块图像的成像质量进行衡量,以分块均值作为该分块区域的“像素值”,并将分块区域视为单个“像素",利用权重公司计算得到每个分块对应的曝光适度评价值。若分块内的像素直接以该评价值作为权重值,进行融合,融合图像会在分块边界处出现明显的不连续现象,需要进一步处理融合图像以消除图像块效应。
因此,需要基于分块模式优化权重图,考虑块内部像素分布,针对分块B(i,j)内位置坐标为(x,y)的像素,利用B(i,j)的8邻域内的分块曝光适度评价值联合确定该像素的权重值:
其中融合函数G(x,y)为峰值位于分块中心的二维高斯函数,高斯标准差、 的取值与分块宽度b有关:
(3) 图像融合
将前面得到各输入图像的权值图,对其做归一化处理使得融合结果连续而自然,公式如下:
归一化权值图形,(x,Y)与对应曝光度图像加权叠加即可得到最终的融合图像:
在处理彩色图像时,算法注重场景的亮度信息,因此将输入图像转换到YCbCr空间,对亮度信息和颜色信息分别进行处理。此外,在计算Cb、Cr色差通道数据时,将曝光适度评价中的u(x,y)设置为固定值0.5,并省略公式分块权重值融合的步骤,结果表明,仍可得到良好的融合效果,进一步减少了算法的运算量,提高了计算效率。
4.存储格式
存储格式是除了内容更加能直观体现影像数据的方式
png: 能够支持透明通道的位图保存方案
jpg:最基础的位图保存方案
AVI:无损的音频,视频保存方案(真的大,太大了,音频只支持立体声)
flv:flash播放器下的播放格式,早年适用于新浪网为源头的各大以flash为播放器的在线平台。
MKV:民间自主开发的视频保存方案,上下兼容性好,缺点是没有在线播放器的支持(可大可小,还可以压入ass字母轨道,多声轨)
MOV:由苹果开发的视频压缩格式,具有跨平台、存储空间要求小,可压入透明通道信息的特点(很重要)
MPGE:h.264,h.265压缩格式,特点是非常大的压缩比,加上和html5技术的兼容性,是现在在线推流和平台播放的主要格式。
(HTML5是构建Web内容的一种语言描述方式,支持音频视频,在通过增加了<audio>、<video>两个标签来实现对多媒体中的音频、视频使用的支持,只要在Web网页中嵌入这两个标签,而无需第三方插件(如Flash)就可以实现音视频的播放功能。HTML5对音频、视频文件的支持使得浏览器摆脱了对插件的依赖,加快了页面的加载速度,扩展了互联网多媒体技术的发展空间,并多多线程有一定优化)