欢迎光临散文网 会员登陆 & 注册

2023.02.24 ArXiv精选

2023-02-24 10:54 作者:PaperABC  | 我要投稿
  • 关注领域

    • AIGC

    • 3D computer vision learning

    • Fine-grained learning

    • GNN

    • 其他

  • 声明

    • 论文较多,时间有限,本专栏无法做文章的讲解,只挑选出符合PaperABC研究兴趣和当前热点问题相关的论文,如果你的research topic和上述内容有关,那本专栏可作为你的论文更新源或Paper reading list.

  • 内容丰富

    • 感谢@秋刀鱼的炼丹工坊建议!增加文章对应的ArXiv链接(但由于小破站无法放站外链接,可能会影响访问).

    • 增加每篇文章的中文快速导读内容.

Paper list:

AIGC:

DiffusioNeRF: Regularizing Neural Radiance Fields with Denoising Diffusion Models

https://arxiv.org/pdf/2302.12231.pdf

使用扩散模型来对NeRF的学习进行指导,从而解决NeRF由于训练数据过少导致出现伪影问题.

Designing an Encoder for Fast Personalization of Text-to-Image Models

https://arxiv.org/pdf/2302.12228.pdf

定制化或者个性化大规模预训练的扩散模型实际上是将该模型tuning到一个新的domain,从而实现对新concept的图像生成.之前的个性化工作存在着训练时间过长,存储消耗过大等问题.本文提出基于encoder的快速的个性化方法,可以在秒数量级下完成.

Region-Aware Diffusion for Zero-shot Text-driven Image Editing

https://arxiv.org/pdf/2302.11797.pdf

区域级别的扩散模型,实现小样本下的文本驱动的图像编辑工作.

Controlled and Conditional Text to Image Generation with Diffusion Prior

https://arxiv.org/pdf/2302.11710.pdf

本文重点探讨了Diffusion Model的prior信息也可以用于可控的图像生成.


3D 视觉

VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Completion

https://arxiv.org/pdf/2302.12251.pdf


自监督学习:

Learning Visual Representations via Language-Guided Sampling

https://arxiv.org/pdf/2302.12248.pdf

提出使用语言之间的相似度指导视觉样本之间的对比学习,细节上来看,就是利用文本之间的相似度指导图像正负样本对的形成.属于跨模态对比学习内容.

Teaching CLIP to Count to Ten

https://arxiv.org/pdf/2302.12066.pdf

出发点非常有趣的一篇文章,目的是让现在的视觉语言大模型具备counting的能力,宏观上说可以理解为具备识别组合形式信息的能力.具体做法是生成一些数量上不匹配的反事实图文对,通过对比损失实现训练.









2023.02.24 ArXiv精选的评论 (共 条)

分享到微博请遵守国家法律