WonderJourney:简单提示生成无限的3D世界
"WonderJourney"是一种创新的模块化框架,用于生成持续的3D场景。与以往专注于单一场景类型的视图生成不同,它能从任何用户提供的位置(通过文本描述或图像)开始,生成一系列多样化且连贯的3D场景。该框架结合了大型语言模型(LLM)生成场景描述、文本驱动的点云生成管道来创造引人入胜且连贯的3D场景序列,以及大型视觉语言模型(VLM)来验证生成的场景。这一过程展现了各种场景类型和风格下引人入胜、多样化的视觉结果,形成了虚构的“奇妙之旅”。

论文:https://arxiv.org/pdf/2312.03884.pdf
Readpaper:https://readpaper.com/paper/4830704839394590721
Demo:https://kovenyu.com/wonderjourney/
代码:https://github.com/KovenYu/WonderJourney
网站展示的demo,我感觉非常惊艳。
一句话就可以生成爱丽丝梦游仙境:

详细介绍
WonderJourney是一个旨在生成连续且多样化的3D场景序列的模块化框架。它结合了3D场景的几何理解和视觉语义理解。该框架通过生成场景的文本描述,然后使用文本引导的视觉生成模块来创建3D场景。它包括场景描述生成、视觉场景生成和视觉验证三个主要模块。输入可以是图像或文本,通过文本到图像模型或视觉语言模型(VLM)进行转换。接着,大型语言模型(LLM)用于生成下一个场景的描述,而视觉场景生成模块则根据这些描述和当前场景图像来生成新的3D场景。最后,VLM用于检查生成的场景,确保没有不期望的效果。该框架的高度模块化设计使其能够轻松集成最新的预训练模型,从而充分利用大型语言和视觉模型的发展。

视觉场景生成:

观点
LLM + 别的技术的结合其实已经有很多了。不过,WonderJourney做的还是比较深的,展现了很多可能性。而且论文给到的细节也蛮多的,感觉可以迁移到很多做交互的技术上。

特邀作者:日本早稻田大学计算机系博士生 王军杰