CVPR Workshop - Scholars and Big Models

2023-06-23 01:29 作者:未来亦可期-CV 0人读过 | 我要投稿

趁着今天的meeting比较少，花时间看了下CVPR中的一个workshop，叫Scholars and Big Models - How Can Academics Adapt (https://sites.google.com/view/academic-cv/)，学到了很多，也做了些思考，简单记录下，以免后面忘了。

1. 在计算机视觉高速发展中，大家shared concern，excitement。

我好像没这些纠结.... 没觉得哪个做的项目是没价值的，也没担心过认真做事会找不到工作.....

From Alexei Efros，partially agree，not completely though

Random Thought - 1:

最近会被学生问到，我实验室的工作时长，我的回答：这是你们自己的PhD项目，我只负责最大程度上提供帮助，但我不是监工，如果自己不上心，不能够在规定的时间内完成某个project，整个community会为你提供penalty signal，意味着你前期的所有时间，准备工作都付之东流。另外，更遗憾的是，你的advisor还会放心把好的idea给你来做吗？ Unfortunately，this is how the community works at the moment.

2. 计算机视觉研究中各行业的角色

3. 有太多的领域/问题值得去进一步探索和解决，

Random Thought - 2:

在最近几个月中，伴随着几个大模型的开放使用，例如，ChatGPT，SAM，CLIP等，整个视觉领域的研究范式的确发生了颠覆性的改变，别的不说，几乎所有研究都从之前vision-only research，转为vision-language joint representation learning，因为在language的空间中，人类先验知识能够更兼容易的被编码，能够更好的用来guide visual representation learning。

我在VALSE上讲过的一页ppt，想着简单的对比下为什么用language做guidance效率会高很多

但实话说，目前的CV model，总是给我一种一瓶子不满，半瓶子逛游的感觉，为什么这么说哪，比如

（1）我想对图像进行编码或分类，想着来用用CLIP，全局编码，没有细节，分类也并不是很准，

（2）我想对图像进行caption，想着用用BLIP2，用了一下，发现就那么回事儿，大体说的话不是很离谱，但完全没有任何细节，例如颜色，大小，形状等，

（3）我想对图像或视频提取object-centric representation，来个SAM模型用用吧，也就那么回事儿，依然是难以处理extreme pose，occlusion，large vocabulary，

（4）生成一张图，来个diffusion model吧，生成的怎么样哪？sometimes impressive，sometimes rubbish, 连几只狗，品种都搞不清楚，

尽管public benchmark上看起来一片大好，perception解决了吗，没觉得.......

Personal Notes:

Anyway，看了大家激烈的讨论，还是很受益的，逼迫自己坐下来花时间思考思考。同时也感到很惭愧，反思自己每天都在瞎忙活，真正坐下来读论文和思考的时间被挤压的很少。后面一定要多思考，多拒绝，少答应一些没用的事儿。。。。。

标签：

CVPR Workshop - Scholars and Big Models

CVPR Workshop - Scholars and Big Models的评论 (共条)

你可能也喜欢这些文章

最新发布的文章

CVPR Workshop - Scholars and Big Models

本文作者的其他文章

CVPR Workshop - Scholars and Big Models的评论 (共 条)

你可能也喜欢这些文章

最新发布的文章

CVPR Workshop - Scholars and Big Models的评论 (共条)