上线3周1k star!DreamCraft3D:如何用一张2D图片创造出高保真的3D物体?
作者:小张Tt | 来源:3D视觉工坊
在公众号「3D视觉工坊」后台,回复「原论文」可获取论文pdf、项目、代码链接
添加微信:dddvisiona,备注:三维重建,拉你入群。文末附行业细分群
DreamCraft3D是一种分层的3D内容生成方法,可以生成高度逼真和连贯的3D对象。该方法利用2D参考图像来指导几何雕刻和纹理增强的过程。该方法的核心是解决现有方法所面临的一致性问题。为了创造出渲染连贯的几何形状,作者通过视角相关的扩散模型进行得分精馏抽样。这种3D先验知识结合了几种训练策略,优先考虑几何一致性,但会对纹理真实性做出妥协。作者进一步提出了引导纹理增强的引导式分数精馏方法。作者在场景的增强渲染上训练了个性化的扩散模型Dreambooth,使其具备优化场景的3D知识。从这个3D感知的扩散先验中进行的分数精馏提供了对场景的视角一致性指导。值得注意的是,通过交替优化扩散先验和3D场景表示,作者实现了相互增强的改进:优化的3D场景有助于训练特定场景的扩散模型,该模型为3D优化提供了越来越一致的视角指导。因此,优化是逐步改进的,并且导致了显著的纹理增强。通过在分层生成过程中使用定制的3D先验知识,DreamCraft3D可以生成具有照片级渲染的连贯3D对象,推动了3D内容生成的最新技术。
读者理解:
这篇文章是关于一种新的三维内容生成方法,叫做DreamCraft3D,它可以利用二维参考图像来指导几何雕刻和纹理增强的阶段,从而产生高保真和一致的三维对象。文章的主要贡献有:
视角依赖的扩散模型:为了雕刻出能够一致渲染的几何形状,文章提出了一种基于得分蒸馏采样的视角依赖的扩散模型,作为三维生成的先验。这种先验可以优先保证几何一致性,但会牺牲纹理保真度。
自举得分蒸馏:为了专门增强纹理,文章提出了一种自举得分蒸馏的方法,它在场景的增强渲染上训练一个个性化的扩散模型,称为Dreambooth,使其具有场景的三维知识。这种三维感知的扩散先验为场景提供了视角一致的指导。值得注意的是,通过交替优化扩散先验和三维场景表示,文章实现了相互增强的改进:优化的三维场景有助于训练场景特定的扩散模型,而后者又为三维优化提供了越来越视角一致的指导。这种优化是自举的,导致了显著的纹理增强。
分层三维生成:通过在分层生成的各个阶段使用定制的三维先验,DreamCraft3D生成了具有照片级渲染的一致的三维对象,推进了三维内容生成的最新水平。
1 引言
本文介绍了DreamCraft3D方法,旨在通过分层生成技术创造复杂的3D资产,并保持整体的3D一致性。该方法借鉴了艺术手工制作的过程,并将3D生成划分为几个阶段:从2D参考图像开始,经过几何雕刻和纹理增强等阶段逐步转化为3D模型。与以往方法不同的是,本文工作强调了对每个阶段的精心考虑,以释放分层生成的全部潜力,从而实现了质量更高的3D创作。这里也推荐工坊推出的新课程《基于深度学习的三维重建MVSNet系列 [论文+源码+应用+科研]》。
几何雕刻阶段:SDS损失用于新视角和参考视图的光度损失,同时采用多种策略促进几何一致性。利用Zero-1-to-3视角条件图像转换模型来建模新视角分布,提供丰富的3D先验信息。采样时间步长渐进加热以及逐步放大训练视角有助于进一步提高一致性。从隐式表面表示过渡到网格表示,实现几何细化,产生锐利、详细的几何形状,有效抑制几何伪影。
纹理增强阶段:引导式得分蒸馏技术用于大幅增强纹理,通过微调扩散模型根据3D实例的多视角渲染提供个性化的3D感知生成先验,增强纹理同时保持视角一致性。交替优化生成先验和3D表示相互增强改进,从渐变分布中学习,捕捉更详细的纹理。

2 相关工作
本文审视了3D生成模型领域的相关研究,包括GANs、自回归模型、扩散模型和3D感知图像生成等。这些研究涉及到利用不同技术尝试从图像或文本到3D形状的概率映射,或者在生成3D资产时保持视角一致性。然而,这些方法面临着训练数据稀缺、视角一致性不足等挑战。尽管有一些方法通过优化、改进损失函数、形状指导或将2D图像提升到3D等尝试提高了纹理逼真度和一致性,但产生全局一致的3D仍然是一个挑战。本文则通过精心设计3D先验,在整个分层生成过程中实现了前所未有的一致性3D生成。
3 方法
本文提出了一种层次化的流程,用于从文本描述生成高质量的3D内容。方法首先利用先进的文本到图像生成模型生成高质量的2D图像,然后通过多阶段的几何塑造和纹理增强将图像转换为3D模型。在几何塑造阶段,采用SDS损失函数来优化3D模型,使其在不同视角下保持合理性,并通过深度、法线等先验信息提高一致性。为了改善3D模型的生成,引入了基于视图条件的扩散模型,结合2D和3D扩散先验进行优化。为了进一步提升几何细节,采用了渐进式训练、扩散时间步长退火等策略。在纹理增强阶段,采用VSD损失和稳定扩散模型来优化模型的纹理,通过训练预训练的扩散模型,并逐步改进纹理质量。最终,通过引入Bootstrapped Score Distillation(BSD)损失,使得3D模型和扩散先验相互促进,改进3D模型和纹理的一致性和质量。整体方法结合了2D和3D模型,通过多阶段的优化和改进,在从文本到高质量3D内容的生成过程中取得了显著的进展。

4 实验
实现细节:在几何塑造阶段,使用Neus和带纹理的3D网格表示。作者采用Instant NGP优化从64到384的分辨率。对于带纹理的网格,使用128网格和512渲染分辨率的DMTet。在网格细化过程中,作者迭代地渲染了引导法线图和RGB图像,增强了几何细节,并优化了作者的纹理预测网络以保持一致性。考虑到已有的全局几何结构,作者的方法在纹理优化过程中不使用3D先验。通过随机采样相机半径和视野角度,使纹理和几何细节得到改善。这里也推荐工坊推出的新课程《基于深度学习的三维重建MVSNet系列 [论文+源码+应用+科研]》。
与现有技术的比较:作者对作者的方法与五种基准方法进行了比较分析。基准方法包括三种文本到3D方法:DreamFusion、Magic3D和ProlificDreamer,以及两种图像到3D方法:Make-it-3D和Magic123。作者建立了一个测试基准,包括300张图像,混合了真实图片和由Stable Diffusion和Deep Floyd生成的图像。作者使用四种评估指标:LPIPS和PSNR用于参考视点的保真度测量;Contextual Distance用于像素级一致性评估;CLIP score用于估计语义一致性。结果表明,作者的方法在保持纹理一致性和保真度方面明显优于基准方法。
用户研究:作者进行了用户研究,向参与者提供了15组不同的提示和图像。每个参与者除了与其对应的文本输入外,还观看了四个自由视角的渲染视频,并选择其首选的3D模型。研究结果显示,作者的模型被92%的用户所青睐,远远超过了基准方法。这一结果证明了作者提出的方法具有鲁棒性和卓越的质量。
定性比较:通过与基准方法的比较,作者的方法在保持语义一致性的同时提高了想象多样性。相比之下,其他方法在多视角一致性、几何细节和纹理质量方面存在各自的问题。
分析:作者进行了3D先验和BSD的效果分析。实验结果显示,3D先验的引导对于全局一致性的调节具有重要作用。另外,BSD技术能够在现实纹理和一致性之间取得良好平衡。同时,作者对层次化流程中多个阶段的渲染结果进行了可视化展示,展示了不同阶段的改进情况和质量提升。



5 总结
我们推出了DreamCraft3D,这是一种推动复杂3D资产生成领域发展的创新方法。 这项工作引入了一个细致的几何雕刻阶段,用于生成合理且连贯的3D几何形状,以及一种新颖的Bootstrapped Score Distillation策略。 后者通过从优化的3D感知扩散先验中提取并适应正在优化的实例的多视图渲染,显着提高了纹理质量和一致性。 DreamCraft3D可生成具有引人注目的纹理细节和多视图一致性的高保真3D资源。 我们相信这项工作代表了3D内容创作民主化的重要一步,并在未来的应用中展现了巨大的前景。