2023.03.06 ArXiv精选

2023-03-06 10:22 作者:PaperABC 0人读过 | 我要投稿

关注领域：

AIGC
3D computer vision learning
Fine-grained learning
GNN
其他

声明

论文较多，时间有限，本专栏无法做文章的讲解，只挑选出符合PaperABC研究兴趣和当前热点问题相关的论文，如果你的research topic和上述内容有关，那本专栏可作为你的论文更新源或Paper reading list．

Paper list:

今日ArXiv共更新82篇.

3D 视觉

Unsupervised 3D Shape Reconstruction by Part Retrieval and Assembly

https://arxiv.org/pdf/2303.01999.pdf

来自于Brown 大学 Daniel组的一篇工作，主要提出了使用检索的思想替代曾经的原型模型优化，避免了生成质量差，拟合难的问题．通过提供part library,来对相关part进行检索，最终组装成3D target shapes.

ACL-SPC: Adaptive Closed-Loop system for Self-Supervised Point Cloud Completion

https://arxiv.org/pdf/2303.01979.pdf

本文提出了首个自监督的点云补全方法．动机是现有的有监督的补全方法，由于真实数据和合成数据之间gap的存在，很难在真实场景中使用．做法是提出一个closed-loop system 使得对输入点云的不同变体都能得到相同的输出．

AIGC

Unleashing Text-to-Image Diffusion Models for Visual Perception

https://arxiv.org/pdf/2303.02153.pdf

https://github.com/wl-zhao/VPD

来自清华的一篇文章，出发点非常新颖：探讨如何利用大规模数据预训练的Diffusion model来支持下游的Visual perception 任务．代码已经开源，近期泛读考虑更新这篇文章．

Foundation Models

Prompt, Generate, then Cache: Cascade of Foundation Models makes Strong Few-shot Learners

https://arxiv.org/pdf/2303.02151.pdf

https://github.com/ZrrSkywalker/CaFo

看图可知，这是一篇利用多种不同能力的Foundation model来集成一个更强的模型．能够聚合CLIP的图文对比学习能力，DALLE的视觉生成能力，GPT-3的语言生成能力．主要的做法：首先利用GPT-3生成那个大量的文本数据提供给CLIP,　其次利用DALL-E生成图像来进一步扩大图像数据．最后混合DINO和CLIP的prediction.

标签：

2023.03.06 ArXiv精选

关注领域：

声明

Paper list:

3D 视觉

AIGC

Foundation Models