2023.03.09 ArXiv精选
关注领域:
AIGC
3D computer vision learning
Fine-grained learning
GNN
其他
声明
论文较多,时间有限,本专栏无法做文章的讲解,只挑选出符合PaperABC研究兴趣和当前热点问题相关的论文,如果你的research topic和上述内容有关,那本专栏可作为你的论文更新源或Paper reading list.

Paper list:
今日ArXiv共更新81篇.
AIGC
X-Avatar: Expressive Human Avatars
https://arxiv.org/pdf/2303.04805.pdf

ETH和微软的合作工作.本文的方法能够以整体的形式对人体,手部,面部表情和外貌进行建模.并且可以从简单的RGB-D或者3D扫描数据中就能学到.
Open-Vocabulary Panoptic Segmentation with Text-to-Image Diffusion Models
https://arxiv.org/pdf/2303.04803.pdf

英伟达的工作.本文同时利用了Text2Image Diffusion模型的强大的open-vocabulary能力和CLIP强大的鉴别能力,完成open-vocabulary的Panoptic Segmentation.
Video-P2P: Video Editing with Cross-attention Control
https://arxiv.org/pdf/2303.04761.pdf

港中文的一篇工作.提出了Video-P2P方法,利用图像模态的扩散模型实现了视频端的编辑任务.近期会分享.
CLIP-FO3D: Learning Free Open-world 3D Scene Representations from 2D Dense CLIP
https://arxiv.org/pdf/2303.04748.pdf

清华团队的工作,利用CLIP的预训练知识来增强open-world下3D场景的理解能力.
Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models
https://arxiv.org/pdf/2303.04671.pdf
微软亚洲研究院的一篇工作,将Foundation model和ChatGPT结合,打造了更加灵活,功能丰富的Visual ChatGPT.

微软亚洲研究院的一篇工作,将Foundation model和ChatGPT结合,打造了更加灵活,功能丰富的Visual ChatGPT.

