2023.03.06 ArXiv精选
关注领域:
AIGC
3D computer vision learning
Fine-grained learning
GNN
其他
声明
论文较多,时间有限,本专栏无法做文章的讲解,只挑选出符合PaperABC研究兴趣和当前热点问题相关的论文,如果你的research topic和上述内容有关,那本专栏可作为你的论文更新源或Paper reading list.

Paper list:
今日ArXiv共更新82篇.
3D 视觉
Unsupervised 3D Shape Reconstruction by Part Retrieval and Assembly
https://arxiv.org/pdf/2303.01999.pdf

来自于Brown 大学 Daniel组的一篇工作,主要提出了使用检索的思想替代曾经的原型模型优化,避免了生成质量差,拟合难的问题.通过提供part library,来对相关part进行检索,最终组装成3D target shapes.
ACL-SPC: Adaptive Closed-Loop system for Self-Supervised Point Cloud Completion
https://arxiv.org/pdf/2303.01979.pdf

本文提出了首个自监督的点云补全方法.动机是现有的有监督的补全方法,由于真实数据和合成数据之间gap的存在,很难在真实场景中使用.做法是提出一个closed-loop system 使得对输入点云的不同变体都能得到相同的输出.
AIGC
Unleashing Text-to-Image Diffusion Models for Visual Perception
https://arxiv.org/pdf/2303.02153.pdf
https://github.com/wl-zhao/VPD

来自清华的一篇文章,出发点非常新颖:探讨如何利用大规模数据预训练的Diffusion model来支持下游的Visual perception 任务.代码已经开源,近期泛读考虑更新这篇文章.
Foundation Models
Prompt, Generate, then Cache: Cascade of Foundation Models makes Strong Few-shot Learners
https://arxiv.org/pdf/2303.02151.pdf
https://github.com/ZrrSkywalker/CaFo

看图可知,这是一篇利用多种不同能力的Foundation model来集成一个更强的模型.能够聚合CLIP的图文对比学习能力,DALLE的视觉生成能力,GPT-3的语言生成能力.主要的做法:首先利用GPT-3生成那个大量的文本数据提供给CLIP, 其次利用DALL-E生成图像来进一步扩大图像数据.最后混合DINO和CLIP的prediction.