Meta专利分享Quest用机器学习实现低分辨率编码传输,高分辨率解码显示
查看引用/信息源请点击:映维网
视频流
(映维网 2021年12月28日)由于渲染图像和传输图像地成本与图像分辨率息息相关,所以为了节省成本,诸如Meta,苹果和微软等厂商已经进行过一系列的探索。日前,美国专利商标局又公布了一份与所述主题相关的Meta专利申请。其中,名为“Enhancing the resolution of a video stream”的发明主要介绍了一种的优化视频传输分辨率的方法。更具体地说,在向用户显示图像之前,可以利用机器学习模型以较低分辨率处理图像并进行传输,然后再upsample至较高分辨率。
在一个实施例中,计算设备可以访问对应于视频帧的第一分辨率图像。计算设备可以基于视频中第一帧的第一分辨率图像和视频中第二帧的第一分辨率图像来计算第一运动矢量,其中第一帧在视频中第二帧之前。
计算设备可以通过使用第一运动向量来扭曲与第一帧相关联的第二分辨率重建图像,以生成与第二帧相关联的第二分辨率扭曲图像,其中第二分辨率可以高于第一分辨率。
接下来,计算设备可以基于与第二帧相关联的第一分辨率图像生成与第二帧相关联的第二分辨率中间图像。为了生成与第二帧相关联的第二分辨率中间图像,计算设备可以将与第二帧相关联的第一分辨率图像的像素均匀地放置到用于第二分辨率中间图像的第二分辨率图像平面中,并使得多个像素留空。计算设备可以用非空相邻像素的插值来填充第二分辨率图像平面中的多个空白像素。
然后,计算设备可以使用机器学习模型处理与第二帧相关联的第一分辨率图像和与第二帧相关联的第二分辨率扭曲图像,并计算调整参数。计算设备可以基于调整参数调整与第二帧相关联的第二分辨率中间图像的像素,以重建与第二帧相关联的第二分辨率重建图像。
在一个实施例中,训练可由另一计算设备执行。在机器学习模型的训练过程中,可以调整机器学习模型的可训练变量以计算使预定损失函数最小化的调整参数。可训练变量可能包括机器学习模型中的权重和偏差。
计算设备可以测量与第二帧相关联的第二分辨率重建图像和与第二帧相关联的第二分辨率ground truth值图像之间的差异。计算设备可以基于与第二帧相关联的第二分辨率重建图像和与第二帧相关联的第二分辨率ground truth值图像之间的测量差来计算机器学习模型的可训练变量的梯度。计算设备可通过梯度下降反向传播程序更新可训练变量。
在特定实施例中,计算设备可测量与第三帧相关联的第二分辨率扭曲图像中的选定像素,以及与和第三帧相关联的第二分辨率ground truth值图像中的选定像素之间的差异。其中,第二帧可位于视频的帧序列中的第三帧之前。为了生成与第三帧相关联的第二分辨率扭曲图像,计算设备可以基于与第二帧相关联的第二分辨率ground truth值图像和与第三帧相关联的第二分辨率ground truth值图像来计算第二运动矢量。
然后,计算设备可以通过使用第二运动矢量来扭曲与第二帧相关联的第二分辨率重建图像,从而生成与第三帧相关联的第二分辨率扭曲图像。通过比较与第二帧相关联的第二分辨率ground truth值图像和与第三帧相关联的第二分辨率ground truth值图像中的像素,可以将所选像素识别为具有强光流对应性的像素。
计算设备可以基于与第三帧相关联的第二分辨率扭曲图像中的所选像素,以及与和第三帧相关联的第二分辨率ground truth值图像中的所选像素之间的测量差异,从而计算机器学习模型的可训练变量的梯度。所述计算设备可以使用所述计算梯度中的任一个或使用所述计算梯度中的两个来训练所述机器学习模型。
通过这种方式,系统可以将以较低分辨率处理并传输的图像upsample到较高分辨率并向用户显示。

如图所示,计算设备103可以从第三方设备接收视频流,并通过头显101将接收到的视频流呈现给用户105。从第三方设备到计算设备103的业务所需带宽可以取决于视频流的分辨率。如果第三方设备和计算设备103之间的通信路径包括无线链路,则可限制可用带宽。如果计算设备103能够以合理的计算成本提高视频流的分辨率,计算设备103可以在向用户显示视频之前以较低的分辨率接收视频流并在后续增强视频的分辨率,从而降低与网络带宽相关联的成本。另外,渲染高分辨率图像的成本可能十分昂贵。如果与呈现高分辨率图像相关联的成本大于呈现视频低分辨率图像+使用机器学习模型增强图像分辨率相关联的组合成本,计算设备103可以以低分辨率渲染图像,并使用机器学习模型来增强图像的分辨率,从而降低成本。
在特定实施例中,计算设备103可以访问对应于视频帧的第一分辨率图像。计算设备103可以基于视频中第一帧的第一分辨率图像和视频中第二帧的第一分辨率图像来计算第一运动矢量,其中第一帧在视频中的第二帧之前。

图2示出了用于使用机器学习模型增强视频图像的分辨率的示例过程。如图2所示,计算设备103可以访问原始分辨率的视频流。计算设备103可以以目标分辨率向关联用户呈现视频流,其中目标分辨率高于原始分辨率。为了以目标分辨率向关联用户呈现视频流,计算设备103可以使用机器学习模型210增强视频流的分辨率。在特定实施例中,计算设备103可与头显101组合。计算设备103可以从第三方设备接收视频流。从第三方设备到计算设备103的通信链路可以为无线。
在图2所示的示例中,计算设备103正在增强与视频流的帧t对应的图像分辨率。计算设备103可以访问对应于帧t-1 201a的原始分辨率图像和对应于帧t 201b的原始分辨率图像。计算设备103可以基于对应于帧t-1 201a的原始分辨率图像和对应于帧t 201b的原始分辨率图像来计算运动矢量。在特定实施例中,运动矢量可以是光流203。
在特定实施例中,计算设备103可通过使用第一运动矢量来扭曲与第一帧相关联的第二分辨率重建图像,从而生成与第二帧相关联的第二分辨率扭曲图像。第二分辨率可能高于第一分辨率。继续图2中所示的先前示例,计算设备103可以访问对应于帧t-1 205的目标分辨率重建图像。对应于帧t-1 205的目标分辨率重建图像可以是在增强对应于帧t-1的图像的分辨率的过程中生成。计算设备103可以通过使用从帧t-1到帧t的计算光流203来扭曲对应于帧t-1 205的目标分辨率重建图像,从而生成对应于帧t 207的目标分辨率扭曲图像。
在特定实施例中,计算设备103可以基于与第二帧相关联的第一分辨率图像生成与第二帧相关联的第二分辨率中间图像。继续图2中所示的先前示例,计算设备103可以基于对应于帧t201b的原始分辨率图像生成对应于帧t221的目标分辨率中间图像。在特定实施例中,计算设备103可以使用基于插值的上采样方法来生成对应于帧t 221的目标分辨率中间图像。
在特定实施例中,计算设备103生成与第二帧相关联的第二分辨率中间图像,可以将与第二帧相关联的第一分辨率图像的像素均匀地放置到用于第二分辨率中间图像的第二分辨率图像平面中,并使得多个像素留空。计算设备103可以用非空相邻像素的插值来填充第二分辨率图像平面中的多个空白像素。

图3示出了用于从原始分辨率图像生成目标分辨率中间图像的示例处理。如图3所示,计算设备103可以访问原始分辨率图像310。为了生成目标分辨率中间图像,计算设备310准备目标分辨率图像平面320,其中目标分辨率高于原始分辨率。目标分辨率图像平面可以是与计算设备103相关联的存储器空间。
然后,计算设备103可以将原始分辨率图像310的像素均匀地放置到目标分辨率图像平面320a中,使得该阶段的目标分辨率图像平面320a可以包括多个空白像素。计算设备103可以用非空相邻像素的插值填充多个空白像素,以生成目标分辨率中间图像320b。
计算设备103可以使用最近邻插值、双线性插值、双立方插值或任何合适的插值技术来填充多个空白像素。

在特定实施例中,计算设备103可以通过使用机器学习模型处理与第二帧相关联的第一分辨率图像和与第二帧相关联的第二分辨率扭曲图像来计算调整参数。在特定实施例中,机器学习模型可以是卷积神经网络(CNN)模型。在特定实施例中,机器学习模型可以是生成性对抗网络(GAN)模型。继续图2中所示的先前示例,计算设备103可以向机器学习模型210提供对应于帧t201b的原始分辨率图像和对应于帧t207的目标分辨率扭曲图像。机器学习模型210可产生参数223的调整。在特定实施例中,可以在计算设备103上执行机器学习模型210。在特定实施例中,可以在第三方设备上执行机器学习模型210。
在特定实施例中,计算设备103可以基于调整参数调整与第二帧相关联的第二分辨率中间图像的像素,以重建与第二帧相关联的第二分辨率重建图像。继续图2中所示的先前示例,计算设备103可以通过将计算出的调整参数223应用于对应于帧t221的目标分辨率中间图像来生成对应于帧t225的目标分辨率重建图像。计算设备103可以向相关联的用户呈现对应于帧t225的目标分辨率重建图像。

在特定实施例中,可以训练机器学习模型。在机器学习模型的训练过程中,可以调整机器学习模型的可训练变量以计算使预定损失函数最小化的调整参数。可训练变量可能包括机器学习模型中的权重和偏差。作为非限制性示例,计算设备可以使用收集的训练数据训练机器学习模型。
训练数据可以包括原始分辨率视频流和相应的目标分辨率视频流。计算设备可以基于目标分辨率重建图像和相应的目标分辨率ground truth图像之间的差异来计算损失。计算设备可以基于损失计算机器学习模型的可训练变量的梯度。计算设备可通过梯度下降反向传播程序更新可训练变量。计算设备可以重复过程,直到达到训练的目标。
在特定实施例中,计算设备可测量与第二帧相关联的第二分辨率重建图像,以及与和第二帧相关联的第二分辨率ground truth图像之间的差异。

图5示出了用于增强视频流的分辨率的示例方法500。所述方法可以从步骤510开始,其中计算设备可以访问对应于视频帧的第一分辨率图像。在步骤520,计算设备可以基于视频中第一帧的第一分辨率图像和视频中第二帧的第一分辨率图像来计算运动矢量。在步骤530,计算设备可以通过使用运动矢量扭曲与第一帧相关联的第二分辨率重建图像,从而生成与第二帧相关联的第二分辨率扭曲图像。
在步骤540,计算设备可以基于与第二帧相关联的第一分辨率图像生成与第二帧相关联的第二分辨率中间图像。在步骤550,计算设备可以通过使用机器学习模型处理与第二帧相关联的第一分辨率图像和与第二帧相关联的第二分辨率扭曲图像来计算调整参数。在步骤560,计算设备可以基于调整参数调整与第二帧相关联的第二分辨率中间图像的像素,以重建与第二帧相关联的第二分辨率重建图像。在适当的情况下,特定实施例可以重复图5的方法的一个或多个步骤。
相关专利:Facebook Patent | Enhancing the resolution of a video stream
名为“Enhancing the resolution of a video stream”的Meta专利申请最初在2020年6月提交,并在日前由美国专利商标局公布。
---
原文链接:https://news.nweon.com/92957