欢迎光临散文网 会员登陆 & 注册

2023.03.06 ArXiv精选

2023-03-06 10:22 作者:PaperABC  | 我要投稿
  • 关注领域

    • AIGC

    • 3D computer vision learning

    • Fine-grained learning

    • GNN

    • 其他

  • 声明

    • 论文较多,时间有限,本专栏无法做文章的讲解,只挑选出符合PaperABC研究兴趣和当前热点问题相关的论文,如果你的research topic和上述内容有关,那本专栏可作为你的论文更新源或Paper reading list.

Paper list:

今日ArXiv共更新82篇.


3D 视觉

Unsupervised 3D Shape Reconstruction by Part Retrieval and Assembly

https://arxiv.org/pdf/2303.01999.pdf

来自于Brown 大学 Daniel组的一篇工作,主要提出了使用检索的思想替代曾经的原型模型优化,避免了生成质量差,拟合难的问题.通过提供part library,来对相关part进行检索,最终组装成3D target shapes.


ACL-SPC: Adaptive Closed-Loop system for Self-Supervised Point Cloud Completion

https://arxiv.org/pdf/2303.01979.pdf

本文提出了首个自监督的点云补全方法.动机是现有的有监督的补全方法,由于真实数据和合成数据之间gap的存在,很难在真实场景中使用.做法是提出一个closed-loop system 使得对输入点云的不同变体都能得到相同的输出.


AIGC

Unleashing Text-to-Image Diffusion Models for Visual Perception

https://arxiv.org/pdf/2303.02153.pdf

https://github.com/wl-zhao/VPD

来自清华的一篇文章,出发点非常新颖:探讨如何利用大规模数据预训练的Diffusion model来支持下游的Visual perception 任务.代码已经开源,近期泛读考虑更新这篇文章.


Foundation Models

Prompt, Generate, then Cache: Cascade of Foundation Models makes Strong Few-shot Learners

https://arxiv.org/pdf/2303.02151.pdf

https://github.com/ZrrSkywalker/CaFo

看图可知,这是一篇利用多种不同能力的Foundation model来集成一个更强的模型.能够聚合CLIP的图文对比学习能力,DALLE的视觉生成能力,GPT-3的语言生成能力.主要的做法:首先利用GPT-3生成那个大量的文本数据提供给CLIP, 其次利用DALL-E生成图像来进一步扩大图像数据.最后混合DINO和CLIP的prediction.





2023.03.06 ArXiv精选的评论 (共 条)

分享到微博请遵守国家法律