欢迎光临散文网 会员登陆 & 注册

2023.03.09 ArXiv精选

2023-03-09 19:41 作者:PaperABC  | 我要投稿
  • 关注领域

    • AIGC

    • 3D computer vision learning

    • Fine-grained learning

    • GNN

    • 其他

  • 声明

    • 论文较多,时间有限,本专栏无法做文章的讲解,只挑选出符合PaperABC研究兴趣和当前热点问题相关的论文,如果你的research topic和上述内容有关,那本专栏可作为你的论文更新源或Paper reading list.

Paper list:

今日ArXiv共更新81篇.

AIGC

X-Avatar: Expressive Human Avatars

https://arxiv.org/pdf/2303.04805.pdf

ETH和微软的合作工作.本文的方法能够以整体的形式对人体,手部,面部表情和外貌进行建模.并且可以从简单的RGB-D或者3D扫描数据中就能学到.


Open-Vocabulary Panoptic Segmentation with Text-to-Image Diffusion Models

https://arxiv.org/pdf/2303.04803.pdf

英伟达的工作.本文同时利用了Text2Image Diffusion模型的强大的open-vocabulary能力和CLIP强大的鉴别能力,完成open-vocabulary的Panoptic Segmentation.


Video-P2P: Video Editing with Cross-attention Control

https://arxiv.org/pdf/2303.04761.pdf

港中文的一篇工作.提出了Video-P2P方法,利用图像模态的扩散模型实现了视频端的编辑任务.近期会分享.


CLIP-FO3D: Learning Free Open-world 3D Scene Representations from 2D Dense CLIP

https://arxiv.org/pdf/2303.04748.pdf

清华团队的工作,利用CLIP的预训练知识来增强open-world下3D场景的理解能力.


Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models

https://arxiv.org/pdf/2303.04671.pdf

微软亚洲研究院的一篇工作,将Foundation model和ChatGPT结合,打造了更加灵活,功能丰富的Visual ChatGPT.

微软亚洲研究院的一篇工作,将Foundation model和ChatGPT结合,打造了更加灵活,功能丰富的Visual ChatGPT.






2023.03.09 ArXiv精选的评论 (共 条)

分享到微博请遵守国家法律