EyelashNet:高精度还原数字人睫毛,「近在眉睫」也能高保真
2019年,NExT Studios 和AI Lab的三位同学带领Matt AI,亮相SIGGRAPH Asia 2019 Real-Time Live!舞台,完成了一次精彩的演绎。两年后,NExT再次登上SIGGRAPH Asia 2021技术论文(Technical Papers)的舞台,分享与「浙江大学 CAD&CG国家重点实验室」金小刚教授团队合作项目《高精度眼睑几何重建》的研究成果——EyelashNet: A Dataset and A Baseline Method for Eyelash Matting。

EyelashNet所提出的睫毛采集与抠图技术,在高质量的个性化数字人脸构建中发挥着重要的作用。睫毛虽然细小,但在人眼区域,即使是细微的失真也很容易被观察到,这会直接影响参数化人脸的高保真程度,暴露出不可忽略的缺陷。本文将介绍数字人脸重建时,以往处理睫毛时遇到的困难,以及EyelashNet技术如何突破技术壁垒,取得成功。

高质量的个性化数字人脸具有广泛的应用,如虚拟主播、虚拟偶像、游戏、虚拟现实、电影等。为了创建一个高保真的人脸,并对其进行动画控制,我们通常需要借助于扫描设备和图形处理软件,来重建一个三维参数化的人脸模型。其中,睫毛的重建是一个不小的挑战。如下图所示,重建的睫毛几何形状(图1)在三维参数化人脸重建(图2)的过程中拟合眼睑时,往往会引入噪声,使睫毛及其眼皮区域产生缺陷。因此,我们通常需要移除睫毛,然后再进行人脸重建,以消除睫毛的负面影响。但移除睫毛并修复眼睑几何是一件非常困难的事情,即使是专业美工,也需花费约5个小时。


EyelashNet包含一个大规模睫毛抠图数据集和一个睫毛抠图模型。其中,睫毛抠图数据集通过巧妙设计的基于荧光标记的软硬件采集系统来获取;而睫毛抠图模型则通过大规模睫毛抠图数据集和深度学习网络训练得到。在基于多视角的三维人脸重建中,采用EyelashNet,我们可抠取多视角图像中的睫毛来消除睫毛几何对人脸其它区域的干扰,从而提升人脸参数化模型在眼睑区域的重建质量。EyelashNet可极大地节省动画师手工修复眼部几何所用的时间,显著提升了个性化人脸重建的质量和效率。


EyelashNet诞生前,通常有两种办法进行睫毛修复。
模型拟合:在移除睫毛几何的过程中,我们通常直接在带有噪声和瑕疵的模型上进行手工修复。美工通常需要考虑两方面的性能:一是修复后的人脸模型几何要相对准确;二是修复后的模型在人脸动画表现上必须自然。这对美工的“手艺”有较高要求,且需对模型进行反复的修改与拟合,整个修复过程非常费时费力。该方法极大地限制了人脸重建的效率。
睫毛抠图:当前基于数据驱动的深度学习方法可用于睫毛抠图,但由于缺乏睫毛数据库,使得即使是当前最先进的抠图算法也无法获得令人满意的结果。由于睫毛细微且结构复杂,其位置一直在动态变化,并且睫毛与眼皮紧密相连。这些特点使得当前的抠图数据库构建方法(例如通过设置特殊背景来突出前景的蓝幕抠图方法)无法用于睫毛抠图数据的生成。除此之外,睫毛与眼球的颜色通常非常相近,这使得即使是专业人员也难以通过人工标注来抠取睫毛。虽然可通过渲染虚拟人像的方法来合成睫毛数据集,但由于渲染出来的图像不是真实的而无法表现现实的各种复杂场景,因此基于渲染数据集训练的抠图网络无法较好地估计真实情况下的睫毛蒙版(alpha matte)。
为突破上述挑战,我们力图研发一个高质量的睫毛抠图数据获取方法,并训练一个基于深度学习的睫毛抠图模型。最终,EyelashNet诞生了!


EyelashNet是国际上第一个大规模、多视角、高质量的睫毛抠图数据集,这使得训练一个基于深度学习的睫毛抠图网络成为可能。我们提出了一个基于深度学习的睫毛抠图基线方法:在EyelashNet数据集上训练后,该模型能够准确地估计出多视角、不同肤色、年龄、性别的肖像图像中的睫毛蒙版。例如,它可以从输入的肖像图(图4)中自动估算出高质量的睫毛蒙版(图5),其中左/右眼的睫毛蒙版显示在绿/红框中。


用新方法,在基于多视角的三维人脸重建中,我们通过抠取多视角图像中的睫毛,来达到移除睫毛几何的目的(图6),从而显著提升参数化模型眼睑区域的重建质量。与前人的方法相比,睫毛抠图有助于我们重建更好的眼部几何(图7)(为完整起见,我们在最下方的图中展示了完全渲染好的人脸)。



睫毛蒙版使我们能够在基于多视角立体三维人脸重建过程中消除睫毛的干扰,从而极大地节省动画师手工修复眼部几何所用的时间,显著提升个性化人脸重建的质量和效率。

我们的睫毛抠图数据生成方法包含两个阶段:采集阶段与推理阶段。在采集阶段,我们研发了一个基于荧光标记的采集系统来采集睫毛数据。我们的系统包含15台单反相机(用来拍摄志愿者在多视角下的睫毛图像(图12所示))、3台UVA闪光灯、头部定位及固定装置。

采集步骤:
在志愿者睫毛上均匀地涂上隐形荧光剂。隐形荧光剂在可见光下是无色的,仅在UVA灯下才会被激活并显色。
精确控制志愿者的头部,使其左眼/右眼落在所有相机的聚焦区域,并保持头部不动。
把相机设置为快速连拍模式进行拍摄。在连拍过程中,UVA闪光灯先打开后关闭,从而快速拍摄志愿者的一对严格对齐、但睫毛颜色不一样的图像(一张带荧光标记的睫毛图像,而另一张是正常状态下的睫毛图像)。通过这样的设计,我们的方法巧妙地解决了睫毛位置动态变化而导致睫毛难以准确采集的问题。
图10(a)展示了我们的采集过程。值得注意的是,虽然我们严格控制志愿者的头部保持不动,但微表情是很难控制的,这会导致在拍摄中引入噪声,从而严重降低拍摄的成对图像的对齐质量。我们进一步通过FlowNet2 [4]从两张图像中估计出一个光流场,指导图像形变来矫正对齐两张图像(如图10(b)所示)。通过上述采集系统,我们可以获取高精度的睫毛遮罩(mask)。但由于没有真实图像的睫毛蒙版真值,我们仍无法获取采集图像的睫毛蒙版。即使有合成睫毛数据集的帮助,睫毛抠图网络性能仍然受限于合成睫毛数据集和真实采集睫毛数据集之间的数据集偏移。因此在推理阶段,我们提出了一个新颖的前景蒙版推理网络,并设计了一个渐进式训练策略,通过减少合成睫毛数据集和真实捕获数据集之间的数据集偏移来克服这一困难。推理步骤:
用具有前景蒙版真值的合成睫毛数据集(图10(c))来预热推理网络,并利用该推理网络为每一个采集的睫毛数据估计一个前景蒙版。
我们人工选择(这是一个弱标注过程)视觉上正确的前景蒙版结果。然后,我们将选定的正确数据添加到合成数据集中,用来训练新的前景蒙版推理网络,并用新训练的网络更新每一个采集的睫毛数据的前景蒙版。
通过重复上述选择和训练过程,我们可很快得到一个令人满意的结果。在我们的实验中,这样一个简单的策略可以使前景蒙版推理网络在两轮训练后迅速适应真实的睫毛数据。训练后的推理网络能够从睫毛遮罩和原始睫毛图像中计算出高质量的睫毛蒙版。通过上述方法,我们构建了EyelashNet数据集。图10第二行展示了我们的推理流程。
在我们的实验中,这样一个简单的策略可以使前景蒙版推理网络在两轮训练后迅速适应真实的睫毛数据。训练后的推理网络能够从睫毛遮罩和原始睫毛图像中计算出高质量的睫毛蒙版。通过上述方法,我们构建了EyelashNet数据集。图10第二行展示了我们的推理流程。


EyelashNet的应用面非常广:除了高精度人脸重建外,它还可以应用于肖像图像的编辑和美颜中,如睫毛变色(图11上)和睫毛编辑(如延长睫毛)(图11下)等。


研发的采集系统能够获取高精度的睫毛抠图数据,包含多视角、多表情、性别、年龄等变量。图12展示了部分采集的睫毛数据库。我们的睫毛抠图模型能够对拍摄的多视角照片进行高精度的睫毛抠图(图13)。

左 15个视角下的睁眼睫毛抠图数据右 正视视角下12个表情的睫毛抠图数据

图14 和表1分别从定性和定量上展示了我们的方法同当前最先进方法的比较结果。图14从左到右分别是输入、三分图、Nam et al. [2]方法的结果、Li and Lu [3]方法的结果、采用渲染数据库训练的抠图模型的结果、我们的结果、睫毛蒙版真值。实验表明,我们的方法取得了当前最好的睫毛抠图结果。


更多详细信息,点击进入项目主页,一起感受“近在眉睫”的高保真!:EyelashNet: A Dataset and A Baseline Method for Eyelash Mattingwww.cad.zju.edu.cn
浙江大学计算机辅助设计与图形学国家重点实验室成立于1992年,是国际一流的计算机图形实验室,为国家“七五”计划建设项目。主要从事计算机辅助设计、计算机图形学的基础理论、算法及相关应用研究。近二十年来,实验室依托浙江大学计算机、数学、机械等学科,作为牵头单位先后承担了一批国家级重大科研项目和国际合作项目,在计算机辅助设计与图形学的基础研究和系统集成等方面取得了一批重要成果。
金小刚教授教授、博士生导师,来自浙江大学计算机科学与技术学院。是“十三五”国家重点研发计划首席科学家,浙江大学-腾讯游戏智能图形创新技术联合实验室主任,浙江省虚拟现实产业联盟理事长,中国计算机学会虚拟现实与可视化专委会副主任委员,杭州钱江特聘专家。在ACM TOG (Proc. of Siggraph)、IEEE TVCG等国际重要学术刊物上发表论文140多篇,多次获得国内外重要奖项。
注释:
[1] EyelashNet: A Dataset and a Baseline Method for Eyelash Matting.Qinjie Xiao, Hanyuan Zhang, Zhaorui Zhang, Yiqian Wu, Luyuan Wang, Xiaogang Jin, Xinwei Jiang, Yongliang Yang, Tianjia Shao, Kun Zhou. ACM Transactions on Graphics (Proc. of Siggraph Asia'2021), 2021, 40(6): Article 217.
[2] Giljoo Nam, Chenglei Wu, Min H. Kim, and Yaser Sheikh. 2019. Strand-Accurate Multi-View Hair Capture. In IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2019, pp. 155-164.
[3] Yaoyi Li and Hongtao Lu. 2020. Natural Image Matting via Guided Contextual Attention. In The Thirty-Fourth AAAI Conference on Artificial Intelligence, AAAI 2020, pp. 11450-11457.
[4] Eddy Ilg, Nikolaus Mayer, Tonmoy Saikia, Margret Keuper, Alexey Dosovitskiy, and Thomas Brox. 2017. FlowNet 2.0: Evolution of Optical Flow Estimation with Deep Networks. In 2017 IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2017, pp. 1647–1655.
[5] ACM TOG: Association for Computing Machinery Transactions on Graphics;
[6] IEEE TVCG: IEEE Transactions on Visualization and Computer Graphics;