欢迎光临散文网 会员登陆 & 注册

WonderJourney:简单提示生成无限的3D世界

2023-12-15 17:33 作者:ReadPaper论文阅读  | 我要投稿

"WonderJourney"是一种创新的模块化框架,用于生成持续的3D场景。与以往专注于单一场景类型的视图生成不同,它能从任何用户提供的位置(通过文本描述或图像)开始,生成一系列多样化且连贯的3D场景。该框架结合了大型语言模型(LLM)生成场景描述、文本驱动的点云生成管道来创造引人入胜且连贯的3D场景序列,以及大型视觉语言模型(VLM)来验证生成的场景。这一过程展现了各种场景类型和风格下引人入胜、多样化的视觉结果,形成了虚构的“奇妙之旅”。


论文:https://arxiv.org/pdf/2312.03884.pdf

Readpaper:https://readpaper.com/paper/4830704839394590721

Demo:https://kovenyu.com/wonderjourney/

代码:https://github.com/KovenYu/WonderJourney


网站展示的demo,我感觉非常惊艳。


一句话就可以生成爱丽丝梦游仙境:


详细介绍

WonderJourney是一个旨在生成连续且多样化的3D场景序列的模块化框架。它结合了3D场景的几何理解和视觉语义理解。该框架通过生成场景的文本描述,然后使用文本引导的视觉生成模块来创建3D场景。它包括场景描述生成、视觉场景生成和视觉验证三个主要模块。输入可以是图像或文本,通过文本到图像模型或视觉语言模型(VLM)进行转换。接着,大型语言模型(LLM)用于生成下一个场景的描述,而视觉场景生成模块则根据这些描述和当前场景图像来生成新的3D场景。最后,VLM用于检查生成的场景,确保没有不期望的效果。该框架的高度模块化设计使其能够轻松集成最新的预训练模型,从而充分利用大型语言和视觉模型的发展。

视觉场景生成:


观点

LLM + 别的技术的结合其实已经有很多了。不过,WonderJourney做的还是比较深的,展现了很多可能性。而且论文给到的细节也蛮多的,感觉可以迁移到很多做交互的技术上。


特邀作者:日本早稻田大学计算机系博士生  王军杰

WonderJourney:简单提示生成无限的3D世界的评论 (共 条)

分享到微博请遵守国家法律