欢迎光临散文网 会员登陆 & 注册

最新开源!照片3D风格化:从单张照片生成风格化的3D照片 (CVPR 2022 Oral)

2022-07-08 14:39 作者:计算机视觉life  | 我要投稿

作者:Fangzhou Mu, Jian Wang*, Yicheng Wu*, Yin Li*

单位:Snap Research, UW-Madison

摘要

视觉内容创作在手机摄像和AR/VR中的应用日益增长,近年来已成为计算机视觉和图形学的研究热点。其中以“风格迁移”和“3D 照片”为代表的图像编辑功能已经在社交和短视频应用上广泛部署。在本文中,我们将二者结合起来,提出了一项全新任务——“照片3D风格化”——从任意给定的单张图像生成风格化的3D照片。我们提出了一个深度学习模型,其核心是风格迁移和全新视角渲染的统一学习。我们将场景由2D图像转化为点云,学习适宜3D风格化的几何内容特征,从而产生跨视角一致的高质量风格化图像。此外,在技术细节上,我们引入了一种新颖的训练方法,仅使用 2D 图像就可以完成照片3D风格化的训练,解决了欠缺3D训练数据这一难点。我们的算法在实验中展现了优异的视觉效果,具有广泛的应用前景。

项目页面:http://pages.cs.wisc.edu/~fmu/style3d

代码已开源:https://github.com/fmu2/3d_photo_stylization


引言

给定一个内容图像和一个风格图像,风格迁移创建一个新的图像,用该风格“描绘”内容。尽管目前有很多高质量的风格化图像算法,它们的结果仅限于和内容图像相同的视角。如果我们可以从不同的视角渲染风格化的图像会不会很有趣?图1中举了两个例子,输入是一张普通照片,输出的是风格化的并且不同视角的图片(推荐看demo视频)。该算法将为 2D 图像提供更加有趣的视觉体验,可用在在移动和 AR/VR 设备上交互式浏览 3D 照片和在短视频平台上分享关键时刻。在本文中,我们回答了怎么解决这一新的任务,即从单个输入图像和任意参考风格图像生成新视角的风格化图像,如图 1 所示。我们将此任务称为“ 照片3D风格化”——风格迁移和新视角合成之间的结合。

图1 照片3D风格化

给定一个内容图像,我们的方法以任意风格合成场景的新颖视图。我们的方法为现有的照片提供了有趣的观看体验。

照片3D风格化有几个技术难点(Huang 等,2021)。首先,如果将现有的风格迁移和新视角合成算法的简单组合,即使利用基于Structure from motion或多视角几何获得的“密集 3D”几何表示,仍会产生模糊或不一致的风格化图像。这一挑战在我们的设定下被进一步放大:这是因为我们的任务是以单张图像作为输入。同时,我们的方法建立在单目深度估计上,这种算法目前还只能输出不完美的深度图,这会导致全新视角下的风格化图像出现孔洞和伪影。此外,训练3D任务的模型通常需要大量含有密集几何标注的的多样化数据,然而这样的数据集目前仍难以获得。

为了解决这些难点,我们从3D Photo(Niklaus等,2019;Shih等,2020)中汲取灵感,并采用基于点云的场景表示(Niklaus等,2019;Wiles等,2020;Huang 等,2021)。我们算法的关键创新点在于,我们的深度模型直接在点云上学习 3D 几何特征,而无需使用内容图像中的 2D 图像特征,以渲染跨视角一致的风格化新视图。我们的方法考虑了单目深度估计的深度图的输入噪声,并将风格迁移和新视图合成统一起来。此外,我们提出了一种新颖的训练方法,可以使用常用的2D图像数据集(如MS-COCO)来训练我们的3D风格化模型,无需多视图图像或真实深度图。

我们的贡献有三个方面。(1) 我们提出了照片3D风格化这一新任务(从一张任意的内容图像合成风格化的新视图)并提出了一种解决方案。(2) 区别于以前的算法,我们的方法不使用 2D 内容图像特征,并且仅从 2D 图像数据集中学习点云上的几何特征。(3) 我们的方法展现了优异的定性和定量结果,并实现了一些有趣的应用。

方法介绍

推理时的工作流程

给定单幅内容图像和任意的风格图像,照片3D风格化的目标是生成内容图像的风格化新视图。我们算法的核心在于直接从场景的点云表示中学习3D几何内容特征,以实现跨视角一致的高质量风格化。

图2和图3展示了我们方法的框架。我们首先估计输入的内容图像的深度,然后利用深度图将内容图像反向投影到3D空间来构建RGB点云。接下来,我们对输入视角中被遮挡的场景部分(新视角下将变成可见的部分)进行“修复”,然后对点云“归一化”。我们设计了一个高效的图卷积网络来从大尺寸点云上提取3D几何特征,从而获得适宜3D风格化的逐点特征。模型中的风格迁移模块随后利用输入风格图像来调整这些逐点特征。最后,可微光栅化器将点云特征投影到新视图,通过解码特征来生成跨视角一致的风格化图像。

我们方法的核心是基于点云的场景表示,它支持几何特征学习、基于注意力的特征风格化和多视角下一致的风格化渲染。具体来说,我们首先从内容图像及其估计的深度图构建一个RGB点云。然后直接从点云中提取内容特征,并根据给定的参考风格图像对其进行风格化。最后,我们将风格化后的点特征渲染到新的视角并解码为风格化的图像。

我们的模型包括三个模块——点云编码器、风格化模块和神经渲染器。编码器应用MRConvs(Li等,2021)以及最远点采样(farthest point sampling)来提取点云的局部特征信息,同时对原始的大尺寸点云进行多次下采样。风格化模块首先计算内容特征和风格特征之间的交叉注意力(cross-attention),再通过注意力加权得到每个点各异的仿射变换来调整该点的内容特征,完成对点云特征的风格化。神经渲染器由一个光栅化器和一个U-Net组成,前者首先对风格化后的点云特征进行抗锯齿(anti-aliasing)后将点云投影到新视图,后者对投影得到的2D特征图进行细化后解码为风格化图像。

训练时的工作流程

我们先使用二维图像生成多视角图像作为训练数据,然后使用两阶段方法训练模型。

首先生成多视角图像训练数据。训练我们的模型需要来自同一场景的多个视角的图像。可是目前缺乏具有多种场景的大规模多视角图像数据集。为了解决这个问题,我们使用现有的3DPhoto算法来合成数据。具体来说,我们使用3DPhoto(Shih等,2020)将来自标准数据集MS-COCO的图像转换为高质量的3D几何,从中我们可以合成任意目标视角来训练我们的模型。在这过程中,我们的模型可以从 MS-COCO 的各种场景中学习。实验发现我们的模型在推理时可以很好地推广到大量的普通图像。

然后是两阶段训练。训练分为新视角合成阶段(模型学习 3D 几何特征以进行新视角合成)和风格化阶段(模型进一步训练以进行新视图风格化)。在新视角合成阶段,给定输入图像,我们随机采样场景的新视角,并训练模型最小化定义在每个像素上的Loss,

其中L_rgb定义在像素值上,L_VGG是感知loss,定义在VGG feature上,L_cns是多视角一致性loss(假设Lambertian反射模型)。在风格化阶段,我们固定编码器以进行内容特征提取,训练风格化器并微调神经渲染器。这是通过从 WikiArt(Nichol,2016)中随机抽取场景和风格图像的新视图,并最小化Loss训练来完成的,前者来自(Liu等,2021),后者是多视角一致性loss。


实验

将我们的方法和其它方法进行比较,我们的方法在一致性上和用户体验上远远超过其它方法(表1和图4)。我们的方法也可以推广到多图作为输入(图5)。最后,我们展示了两个应用(图6)。

我们将我们的方法与其它方法(先3DPhoto,再图像/视频风格迁移)进行比较。我们的方法在不同的视角上是最一致的。

我们将我们的方法与顺序结合3DPhoto和图像/视频风格转移的基线方法进行比较。评估(a)风格质量、(b) 多视角一致性和(c)整体合成质量。问卷让用户一对一比较两个算法的结果,投票给更好的。图中展示了投票的用户百分比(基于30人,5400次投票)。可以看出,我们的算法远胜于其它算法。

与StyleScene(Huang等,2021)相比,我们的方法更接近于参考风格,更好地保留了场景中的几何信息(红框部分),并且对视点分布的变化更加鲁棒(第二行)。这里global和local分别指使用300和6-8张图片作为输入。

(a)分层风格化,人不变但场景风格化,(b)3D浏览历史照片“一个小拱门欢迎总统来到阿拉斯加的 Metlakatla”,由D. L. 霍兰迪 在1923年拍摄

结语

我们的研究首次将风格迁移和3D Photo联系起来,提出了新任务“照片3D风格化”——从任意给定的单张图像生成风格化的新视图。我们发现,简单地将两个领域各自的算法组合起来的效果并不理想,因此提出了一个全新的深度学习模型。我们的模型将风格迁移和新视角生成通过点云的表示方式统一起来,从而获得高质量的照片3D风格化效果。我们与其他可行方案进行了充分对比,并初步展示了一些照片3D风格化的潜在应用。希望我们的方法能够给广大用户带来从 2D 照片创建 3D 内容的新体验。

参考文献

[1]Huang Hsin-Ping, Tseng Hung-Yu, Saini Saurabh, Singh Maneesh, and Yang Ming-Hsuan, “Learning to Stylize Novel Views”, ICCV 2021

[2]Niklaus Simon, Mai Long, Yang Jimei, and Liu Feng, “3D Ken Burns effect from a single image”, TOG 2019

[3]Shih Meng-Li, Su Shih-Yang, Kopf Johannes, and Huang Jia-Bin, “3D photography using context-aware layered depth inpainting”, CVPR 2020

[4]Wiles Olivia, Gkioxari Georgia, Szeliski Richard, and Johnson Justin, “SynSin: End-to-end view synthesis from a single image”, CVPR 2020

[5]Li Guohao, Muller Matthias, Qian Guocheng, Perez Itzel Carolina Delgadillo, Abualshour Abdulellah, Thabet Ali Kassem, and Ghanem Bernard, “DeepGCNs: Making GCNs go as deep as CNNs”, TPAMI 2021

[6]Nichol Kiri, “Painters by Numbers, WikiArt”, https://www.kaggle.com/c/painter-by-numbers, 2016

[7]Liu Songhua, Lin Tianwei, He Dongliang, Li Fu, Wang Meiling, Li Xin, Sun Zhengxing, Li Qian, and Ding Errui, “AdaAttN: Revisit attention mechanism in arbitrary neural style transfer”, ICCV 2021


独家重磅课程官网:cvlife.net

图片

全国最大的机器人SLAM开发者社区

图片


技术交流群


图片


—   版权声明  —

本公众号原创内容版权属计算机视觉life所有;从公开渠道收集、整理及授权转载的非原创文字、图片和音视频资料,版权属原作者。如果侵权,请联系我们,会及时删除。

最新开源!照片3D风格化:从单张照片生成风格化的3D照片 (CVPR 2022 Oral)的评论 (共 条)

分享到微博请遵守国家法律