欢迎光临散文网 会员登陆 & 注册

CVPR Workshop - Scholars and Big Models

2023-06-23 01:29 作者:未来亦可期-CV  | 我要投稿

趁着今天的meeting比较少,花时间看了下CVPR中的一个workshop,叫Scholars and Big Models - How Can Academics Adapt (https://sites.google.com/view/academic-cv/),学到了很多,也做了些思考,简单记录下,以免后面忘了。

1. 在计算机视觉高速发展中,大家shared concern,excitement。

我好像没这些纠结.... 没觉得哪个做的项目是没价值的,也没担心过认真做事会找不到工作.....


的确是exciting time
From Alexei Efros,partially agree,not completely though
Absolutely Agree

Random Thought - 1: 

最近会被学生问到,我实验室的工作时长,我的回答:这是你们自己的PhD项目,我只负责最大程度上提供帮助,但我不是监工,如果自己不上心,不能够在规定的时间内完成某个project,整个community会为你提供penalty signal,意味着你前期的所有时间,准备工作都付之东流。另外,更遗憾的是,你的advisor还会放心把好的idea给你来做吗? Unfortunately,this is how the community works at the moment.


2. 计算机视觉研究中各行业的角色

赞同这个观点,大学(包括本科,PhD)的价值更多在于Training


3. 有太多的领域/问题值得去进一步探索和解决,

From Devi Parikh,英雄所见略同
From Alexei Efros. Completely agree.
From Erik G. Learned-Miller


Random Thought - 2:

在最近几个月中,伴随着几个大模型的开放使用,例如,ChatGPT,SAM,CLIP等,整个视觉领域的研究范式的确发生了颠覆性的改变,别的不说,几乎所有研究都从之前vision-only research,转为vision-language joint representation learning,因为在language的空间中,人类先验知识能够更兼容易的被编码,能够更好的用来guide visual representation learning。

我在VALSE上讲过的一页ppt,想着简单的对比下为什么用language做guidance效率会高很多

但实话说,目前的CV model,总是给我一种一瓶子不满,半瓶子逛游的感觉,为什么这么说哪,比如

(1)我想对图像进行编码或分类,想着来用用CLIP,全局编码,没有细节,分类也并不是很准,

(2)我想对图像进行caption,想着用用BLIP2,用了一下,发现就那么回事儿,大体说的话不是很离谱,但完全没有任何细节,例如颜色, 大小,形状等,

(3)我想对图像或视频提取object-centric representation,来个SAM模型用用吧,也就那么回事儿,依然是难以处理extreme pose,occlusion,large vocabulary,

(4)生成一张图,来个diffusion model吧,生成的怎么样哪?sometimes impressive,sometimes rubbish, 连几只狗,品种都搞不清楚,

尽管public benchmark上看起来一片大好,perception解决了吗,没觉得....... 


Personal Notes: 

Anyway,看了大家烈的,还是很受益的,逼迫自己坐下来花时间思考思考。同时也到很惭愧,反思自己每天都在瞎忙活,真正坐下来读论文和思考的时间被挤压的很少。后面一定要多思考,多拒绝,少答应一些没用的事儿。。。。。

CVPR Workshop - Scholars and Big Models的评论 (共 条)

分享到微博请遵守国家法律