欢迎光临散文网 会员登陆 & 注册

CVPR2022权威解读|如何做出好论文?看完Talk就懂了

2022-07-05 10:21 作者:ReadPaper论文阅读  | 我要投稿


CVPR 2022最佳论文公布

恭喜阿里和同济的团队🎉

据悉今年Review数25804,Rebuttal数5884

国内论文投稿数及接收数均创新高


本期Paper君邀请了业内学术大咖:

IDEA计算机视觉与机器人方向讲席科学家张磊

百度AIG视觉首席科学家王井东

微软亚研院视觉计算组首席研究员胡瀚

一起聊聊科研路上你想知道的那些事


如何做出好论文/好工作?

对行业未来发展有什么预测?

对年轻科研工作者有哪方面的建议?

且来听听大咖们是怎么说的


CVPR接收量屡创新高,对此有何看法?会不会为了发论文而写论文?

针对论文数量逐年增长这件事,其实每年都是盛况空前,增长率都非常高。甚至大家预测,按照这个趋势,可能再过几年每年都会有上十亿篇论文投稿(笑),但它总会慢慢缓下来,我觉得论文数量增长很大程度上是反映了研究人员数量的增多;这实际也表明了CV还一直得到更广泛的应用。而这种来自于应用的支撑、回馈也使得更多的研究人员能够一直留在CV领域。


在CV领域比较久的研究人员,会给年轻的研究人员和学生传递以下想法:做研究不是为了发论文而写论文。因为在你做研究解决问题的过程中将其进展给大家分享出来,而论文就是最佳的分享形式。这就是我对于这个问题的最佳思考吧。


今年其实没有披露准确的投稿数(录制时),因为我今年参与了CVPR的服务工作,所以大概也知道有效投稿数大概是8100多篇,其接收量稍微提高了一些,总投稿率大概上涨了百分之十几。


那我就谈谈自己的经验或者观点吧:新的论文越来越多,那我们就更应该重视质量。


因为第一,相比于论文中一些看起来fancy的技术创新,我更看重的是一个工作能不能enable一个新的事情,或者能不能推进/改变一个潮流,乃至改变大家的认识。


比如张磊老师最近的论文DINO,其实就是在改变大家的认识。以前大家会觉得DETR这个东西很通用,将来可能可以统一很多不同的下游任务,但DINO第一次说不仅能够统一,而且能超过以前的SOTA方法,我觉得这是一个里程碑的结果。一个好的研究是能改变一些东西,或者工程实践,或者新的理解,或者新的道路,而不只是为了做一个新东西。


以上是第一个观点,第二个其实我们之所不要太重视数量而要重视质量是有原因的,因为一个Paper的影响力是阶跃的,一开始你可以认为影响力几乎为0,但到了一定的质量后,你的影响力就会暴增。因此你如果发的(论文)质量不高的话,其实是在浪费时间和纸张。


在这里我就特别佩服Kaiming(何恺明),他每年的Paper就那么几篇,但每篇都是经典。大家都会仔细地去读。对,一旦你的文章多了就没人会认真去读你的Paper了(笑)。


坦白说在这方面其实我并没有做到,因为从一个独立研究者到带团队,有时Paper就会被迫多起来。我个人其实比较怀念前几年,19年的时候我一年大概做了五六篇的工作,基本都是亲力亲为,也可以保证质量。尽管可以说是全年无休,非常累,但我觉得很充实、很开心以及满足。


还有就是我们在做Swin Transformer的时候,几乎是把全部精力都投入了,而最后做出来的质量和影响(都是很好的),现在回头想如果当时有好几个Paper牵扯精力可能就不会有这么大的影响力了,因为Quality就上不去了。


张磊和胡瀚都讲得非常好,我认为发论文是非常重要的一件事:因为论文并不是我们的目的,而是手段通过论文这样一个手段去检验我们的研究成果。因为论文会通过Review的机制,把你对问题的理解通过论文的形式展现出来。Review过程中可以检验你对问题的认识对不对——我更想从这过角度去讲。


第二,我最近在思考一个问题,论文是做什么?它是一个手段。从另一个角度来讲,论文一方面是学习的工具。很多该领域的新人和学生需要通过论文去学习,另一方面论文其实还需要创造一些东西;而这两个都是非常重要的。可能正因为这两个原因——尤其是前者,很多人通过学习发表很多论文,导致CVPR论文数量增多。



有人认为现在是越做越细分,也有人认为模型有大一统的趋势未来,各位怎么看?


那我就先讲下自己的看法,抛砖引玉。我感觉还是可以看人脑是怎么工作的。我觉得人脑有这样几个特点:第一,模型一定要大,人的大脑拥有百万亿级别的连接,也就是参数,这也是人能实现通用智能的一个重要基础。所以要实现比较好的智能的话,也许需要把模型做的很大。做大有两个维度,一是把参数做大,第二要做稀疏。因为(参数)做大以后效率会很低,而做稀疏的话,就能在保持大的情况下进行较快的推理,能和人脑一样节能。



第二点,模型需要是通用的。还是人脑的例子,大脑皮层不管哪个地方负责什么智能,都是六层的神经元,这六层神经元每个地方的结构也都是统一的,尽管统一,但它却能干所有的事情:能做视觉,NLP,语音识别……什么都能干,那就更别提视觉里的细分任务了。


第三点,学习方法也可能是通用的。人在学习一个新技能的时候通常会很快进入状态,并学会。学习模式也基本是通用的,之前我看到一个说法:大脑里有一个丘脑,各种感知信号都会先通过丘脑,再到大脑皮层,而后再返回。返回来以后会去预测下一时刻的输入是啥,和真实的输入做一个比对,看看是否一致来做学习。


简称通用多模态大模型哈哈……


哈哈好吧,这个问题很有意思,如果将来的发展有大突变,我们要跳出local,但目前我们很难去看到全局的东西,只能局部去看,因此我的观点和胡瀚有点类似,就是我们也只能在local看看近一两年发展的可能性。


刚刚讲到的通用大模型,视觉跟NLP比起来,要把数据用起来还是比较困难的,我们有大量的数据,自监督目前看上去是有可能,但也不一定能有所突破,如何把大量的数据吃进去是一个可能的方向。


第二点,视觉要和NLP大一统还是比较困难的,因为视觉里面人物非常复杂,举个例子,NLP里面给出一个output,你很难知道其任务是什么,但对视觉来讲只要给个output就大概能知道这是什么任务。从以上来讲,对视觉来说任务有没有一个统一的interface去表达?从大一统来讲这个是视觉要解决的问题。


Transformer会流行起来的原因之一是视觉里面有很多任务都是搜索的过程,我在读PHD的时候,导师权龙跟我讲过视觉里面所有的问题只有两个,一个是feature一个是matching,深度学习就是把这两个东西完美统一起来,特别是attention,attention本来就是在算feature,在做搜索做matching。所以attention有可能成为任务统一的方法。


两位分享的观点都非常精彩,前段时间我跟沈老师一起写了一篇的Position Paper——关于统计学习如何在整个深度学习算法背后驱使各项工作。不管是CV还是NLP,现在的学习方法实际上没有跳出统计学习的框架,即用N个数据去学习一个模型,从而预测第N+1个数据,目前的深度学习解决的是函数构造和优化的问题。若要在统计学习框架下做且要保证模型的泛化能力,即在数学上要满足大数定律,就要在函数空间找到最佳函数使得该函数能够收敛到基于期望的目标函数。基于这个观点,我们能理解为什么大模型能够结果越来越好,在统计意义上,我们现在做的大模型还是个小数据。如果沿着这个方向做下去,会非常麻烦,因为我们不可能无穷增加算力和数据,所以最终还是要在有限的数据、有限的算力下提高模型推广能力和泛化能力。


我觉得目前还是比较缺乏通用的做法,在基本算法和数学方面没有看到大的突破,所以大家所谓的“卷”实际上一直在卷数据、卷模型训练,我们一直没有跳出这个框架来。但研究的魅力所在,就是大家在困难中有更多空间去探讨,这也是我对于这个领域的思考吧。


张磊刚才讲了数据的问题,其实咱们现在希望做的是规模化,规模化总结起来有两个维度:即数据的维度模型的大小


针对这个问题,可以到一些垂直领域去看。比如在OCR领域。在互联网上拿到一个带文字的图片,它是无法给出准确的文字信息的,这个意义上来讲自监督还是有些帮助的,能够帮你学习表征。


沿着井东师兄关于数据的问题再谈谈我的看法吧,其实我们现在有两种大家比较认可的学习方式,一个是自监督,一个是多模态。而我认为将来学习化不会是单一的,而是可以很多方式结合起来的:比如自监督和图文的混合——一方面我可以学习很好的表征,同时也可以把视觉信号和语言连接起来。


科研工作似乎越来越卷了,对年轻的工作者有什么方向上的建议?

我觉得这也是一个很好也很难回答的问题,我觉得需要从不同的角度来给一些建议吧。


对于学生,尤其是刚进入研究领域的学生来说,对某一个方向的理解深度是非常重要的,因为只有理解深度达到一定程度后,你才可能对这个问题的本质有更多的了解。达不到这样的深度的话,光看一系列的论文是没有用的,以前我们同行也有讨论:一个新的工作或Idea出来之后,要有足够的能力去追溯其历史。这样你才能在这个工作的基础上进行改进,才能看到一个方向或思路;


除了深度,广度也非常重要。广度总体来说应该是指导老师可以给到学生帮助的,因为老师更资深一些,在各方向上都可能有涉猎,跟学生讨论的过程中可以给出很多建议,长时间积累下来的深度加上广度,对问题会产生一些敏锐性,有更彻底的方法去解决。对学生来说,能体会到一个完整的论文周期是一个非常重要的锻炼。


Paper越多是不是越“卷”?我可能有不同的角度去看这个事情:有可能是进入我们这个领域的人越来越优秀,导致看上去很“卷”;也可能是咱们领域的门槛没有以前那么高了。


至于说年轻工作者发Paper、找课题有什么建议:


像刚刚张老师提到的看文章,我个人的感觉来说,一个文章你以前看过,两个月后看一遍,现在再翻出来看,你就会发现其实每次阅读的感受都是不一样的。不同的人从不同的角度,以自己的背景和知识点去解读文章,对论文的理解也就不一样了。短时间要把一篇文章的历史弄清楚其实是非常困难的。


而从另一个角度出发,要从Paper里面找到Idea其实是非常困难的。Paper每个人都可以读到,但是一个了不起的Idea不会仅仅是从Paper里拿到的,而是更多深层的思考的结果。


针对两类人群谈一下自己的建议,第一类是准备入行的学生,另一类是接下来准备做独立PI的研究者。


对于准备入行的学生,首先需要找一个好的导师,不一定需要大牌教授或非常资深的研究员,也可以是很年轻的PI或是比自己高上一两年级的师兄师姐。做科研长久以来就是师徒制,这应该是有原因的,这和我们本科教育还是不大一样,本科可以是一个老师带几十上百个学生上课;但科研是一个不太标准化的东西,如果没有好的导师在带的话,无论你多么聪明,智商多高,单靠自身去摸索是很难的。现在网络资源越来越丰富,你也可以多去看一些科研大牛的分享,也能学到很多东西。


对于准备做独立PI的研究者,最重要的一点是要找到正确的方向:找到了正确的方向对于自己和团队来说都会轻松很多,否则就是事倍功半。如何找到正确方向呢,像张磊老师和井东师兄说的,你得对历史的脉络(深度)很清楚,对广度也要很清楚,这样才能知道什么问题最重要,带着团队往这个方向前进。


这里我引用两个人说的话,一个是杨振宁先生,他说他曾经看到过几千个研究者,有的10年后非常成功,有的却失败了,这并不是因为成功者更聪明,而是因为成功者找到了正确的方向,知道该做什么;还有就是上周看到了祥雨朋友圈分享了一个观点,我觉得还蛮有意思的:真正做一些伟大的东西,往往都需要很好的直觉——不是数学,不是理论推导,而是你根据历史脉络和广度得到的一些思考。带着这样的思考和信念去做科研其实是更简单的:(做科研)其实是一个Easy模式,而不是Hard模式。

CVPR2022权威解读|如何做出好论文?看完Talk就懂了的评论 (共 条)

分享到微博请遵守国家法律