WonderJourney：简单提示生成无限的3D世界

2023-12-15 17:33 作者:ReadPaper论文阅读 0人读过 | 我要投稿

"WonderJourney"是一种创新的模块化框架，用于生成持续的3D场景。与以往专注于单一场景类型的视图生成不同，它能从任何用户提供的位置（通过文本描述或图像）开始，生成一系列多样化且连贯的3D场景。该框架结合了大型语言模型（LLM）生成场景描述、文本驱动的点云生成管道来创造引人入胜且连贯的3D场景序列，以及大型视觉语言模型（VLM）来验证生成的场景。这一过程展现了各种场景类型和风格下引人入胜、多样化的视觉结果，形成了虚构的“奇妙之旅”。

论文：https://arxiv.org/pdf/2312.03884.pdf

Readpaper：https://readpaper.com/paper/4830704839394590721

Demo：https://kovenyu.com/wonderjourney/

代码：https://github.com/KovenYu/WonderJourney

网站展示的demo，我感觉非常惊艳。

一句话就可以生成爱丽丝梦游仙境：

详细介绍

WonderJourney是一个旨在生成连续且多样化的3D场景序列的模块化框架。它结合了3D场景的几何理解和视觉语义理解。该框架通过生成场景的文本描述，然后使用文本引导的视觉生成模块来创建3D场景。它包括场景描述生成、视觉场景生成和视觉验证三个主要模块。输入可以是图像或文本，通过文本到图像模型或视觉语言模型（VLM）进行转换。接着，大型语言模型（LLM）用于生成下一个场景的描述，而视觉场景生成模块则根据这些描述和当前场景图像来生成新的3D场景。最后，VLM用于检查生成的场景，确保没有不期望的效果。该框架的高度模块化设计使其能够轻松集成最新的预训练模型，从而充分利用大型语言和视觉模型的发展。