2023.03.09 ArXiv精选

2023-03-09 19:41 作者:PaperABC 0人读过 | 我要投稿

论文较多，时间有限，本专栏无法做文章的讲解，只挑选出符合PaperABC研究兴趣和当前热点问题相关的论文，如果你的research topic和上述内容有关，那本专栏可作为你的论文更新源或Paper reading list．

Paper list:

今日ArXiv共更新81篇.

X-Avatar: Expressive Human Avatars

https://arxiv.org/pdf/2303.04805.pdf

ETＨ和微软的合作工作．本文的方法能够以整体的形式对人体，手部，面部表情和外貌进行建模．并且可以从简单的RGB-D或者3D扫描数据中就能学到．

Open-Vocabulary Panoptic Segmentation with Text-to-Image Diffusion Models

https://arxiv.org/pdf/2303.04803.pdf

英伟达的工作．本文同时利用了Text2Image Diffusion模型的强大的open-vocabulary能力和CLIP强大的鉴别能力，完成open-vocabulary的Panoptic Segmentation.

Video-P2P: Video Editing with Cross-attention Control

https://arxiv.org/pdf/2303.04761.pdf

港中文的一篇工作．提出了Video-P2P方法，利用图像模态的扩散模型实现了视频端的编辑任务．近期会分享．

CLIP-FO3D: Learning Free Open-world 3D Scene Representations from 2D Dense CLIP

https://arxiv.org/pdf/2303.04748.pdf

清华团队的工作，利用CLIP的预训练知识来增强open-world下3D场景的理解能力．

Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models

https://arxiv.org/pdf/2303.04671.pdf

微软亚洲研究院的一篇工作，将Foundation model和ChatGPT结合，打造了更加灵活，功能丰富的Visual ChatGPT.

微软亚洲研究院的一篇工作，将Foundation model和ChatGPT结合，打造了更加灵活，功能丰富的Visual ChatGPT.

标签：