葛艺潇:从华科测控到港中文MMLab
在将门-TechBeat人工智能社区上线一周年之际,我们从104位讲者中评选出Top30进入「2021年度TechBeat红人榜」。同时我们也潜心策划了AI工作者人物专访栏目「AI红人荟」,第一期:专访图森未来首席科学家王乃岩已经新鲜出炉啦,点击回顾~
本次为大家带来的是——香港中文大学在读博士·葛艺潇的故事。
作者 | 何伊静
2013年,葛艺潇考入华中科技大学自动化学院测控技术与仪器专业。
2017年,她去往被称为“计算机视觉界黄埔军校”的香港中文大学多媒体实验室(MMLab)深造,目前主要研究方向是计算机视觉中的表征学习,包括无监督学习、解耦学习、领域自适应学习等,及其在图像检索、图像生成上的应用。
测控技术和计算机视觉,两个不同的领域在葛艺潇身上有了奇妙的交错,从人工智能小白到在NeurIPS、ICLR、ECCV、CVPR等计算机顶级会议中发表多篇论文,葛艺潇在这个行业里走得愈发从容。
01 编程
“在不断的实践中收获了一种成就感,我重拾了对编程的自信和兴趣。”
刚高考完的葛艺潇一定想不到三年后自己的选择,18岁的她只想“逃离”计算机。由于信息类竞赛的好名次有助于升学,葛艺潇从小学起就开始接触编程,但是这个曾取得过江苏省前十好成绩的小女孩,其实很久都无法领会编程的奥秘——她所能看到的只是一道道算法题,根据之前的练习把它们做出来是必须完成的任务。
到了初中,课内的学习压力加大,艺潇发现自己越来越难以专注在编程上,编程成绩也并不理想。压力引发抵触,等到高中,她便彻底放下了编程的学习,在选择大学专业时,首先排除的也是计算机。
后来,葛艺潇来到华科大测控技术与仪器专业,尽管刻意与计算机科学保持了距离,她还是遇上了两年多没见的“老朋友”。在该专业大一下的课程安排中有一门C语言,除学习基本语法外,学生们还需要在大一升大二的暑假独立完成一个程序设计。这门课的挂科率比较高,“它相当于课上教了你1+1=2,作业却是让你算一个特别复杂的微分方程式”,但有编程基础的她并没有感到太大困扰。

在葛艺潇的印象中,当时的成品虽然简陋,程序实现的功能也不复杂,仅仅是“红灯停、绿灯行”的路况模拟,但看到8000行左右代码跑通的那一刻,她在编程这件事上感受到了前所未有的成就感。“人有种常态就是,什么东西你学得好就容易感兴趣,然后越学越好”,艺潇心中有些念头开始萌动。
大二时,葛艺潇通过选拔,进入了华科联创团队。创立于2000年的联创团队是一个以技术为驱动的学生组织,集结了众多对编程感兴趣并且很有创造力的人才。当时,人工智能还不是潮流,联创团队主要专注于软件开发。葛艺潇所在的是一个主攻安卓开发的项目组,通过自学以及向团队里计算机、软件学院的学长学姐请教,她逐渐也能独立完成一些App的开发。

那些小时候看起来枯燥苍白的代码终于连通了触手可及的日常,变得无比鲜活,在联创的日子让艺潇愈发体会到编程的美妙。“做了很多事情,或许跟我现在做的方向毫无关系,但我就是在不断的实践中收获了一种成就感……在这个过程中,我重拾了对编程的自信和兴趣。”
转变已经可见端倪。伴随年级增长,虽然在本专业成绩优异,葛艺潇觉得自己对硬件相关学科的兴趣还是“差点意思”。临近大三结束,葛艺潇在考虑硕士或者PhD专业时,尽管没有想到是计算机视觉,但偏计算机方向是可以肯定的。
02 橄榄枝
“如果不能进MMLab,那么港中文也就不在升学考虑之列了。"
大三暑假,本计划在内地保研的葛艺潇参加了港中大工程学院组织的HK PhD Fellowship Summer Workshop,在这里,她意外地被王晓刚老师的报告内容吸引了,“王老师那时主要展示了人群计数,比如一张照片里有非常密集的人群,计算机可以快速通过视觉理解的方式精准获取人员数量和人群密度分布,并跟踪、预测人群轨迹。王老师也展示了人员重识别的应用,这后来也是我的研究方向之一”。
2016年,计算机视觉乃至人工智能领域都还不像现在这样家喻户晓,有的同学甚至还会开玩笑地称计算机视觉是“做相机、做美图秀秀”。一场报告能带来的理解总归还是浅显,况且她的本科专业并不对口,但葛艺潇抱着一种纯粹的“有意思而且有应用前景”的念头,目光开始在MMLab上锁定。

于是,在Summer Workshop正式的面试前,艺潇通过邮件联系,获得了一次与王晓刚老师单独交流的机会。那天,她走进办公室,看见王晓刚老师坐在桌后。办公桌上放着文件材料,还有一罐打开的可乐,上面爬着蚂蚁。她坐下,看着老师却不知道该说些什么。老师翻了翻她的简历,问了些问题,最后说的是“有没有考虑别的老师?可以再去聊一聊”。
模糊的态度不免让艺潇有些失落,但在和其他老师交流之后,她还是对王晓刚老师的研究方向最感兴趣。学员们在统一面试前还需要填写志愿,艺潇便毅然决然只填了晓刚老师。如果不能进MMLab,那么港中文也就不在升学考虑之列了。
面试当天具体的问答早已忘却,艺潇只记得当她正准备从面试房间出去,作为面试官之一的王晓刚老师却又叫住了她,就在门口,向她提议要不要先到实验室做一年研究助理,也就是先gap一年,再正式读博士。她愣了一会儿,喜悦之余,疑问也在脑海中一个个炸开:身边选择gap的同学很少,大部分都是直接升学,这样真的好吗?当一年研究助理后,我真的能顺利转为PhD吗?会不会有风险……
艺潇没有当即答复,回家后,经过和王晓刚老师多个来回的邮件确认,她终于下定了决心。

“我当时就是小白,如果一上来就读PhD,对我来说可能压力很大,也很难完成研究任务。”葛艺潇很感谢实验室所给予的这一年缓冲期,“这一年的时间,让我对计算机视觉有了初步了解,让我没有一口气吃成个胖子的感觉。”
在访谈过程中,葛艺潇反复提到王晓刚老师的知遇之恩,她也很好奇,当年自己到底是哪里打动了王老师,“我也不确定,但我感觉王老师会喜欢勇于表达自己,很清楚地知道想要什么、不想要什么并且表现出一种自信状态的人。”第一次交流的时候,由于是第一次“套瓷”,葛艺潇可能确实有些放不开,但在正式面试时放手一搏,状态反而好了许多。

03 模仿
“创造力始于模仿”
半只脚踏进MMLab,艺潇很快就感受到了意料之中的不适应。
在这个未曾接触的领域里,来自测控专业的葛艺潇有太多背景知识亟需补充。李鸿升老师是另一位对葛艺潇来说非常重要的老师,正是他为刚刚踏入计算机视觉领域的艺潇明确了大方向——看哪些论文,跑哪些代码,李老师为她递上了一些可以抓住的绳索,但抓着绳索攀行也并不轻松。
这是葛艺潇第一次接触纯英文论文,除了一个套着一个的基础知识盲区,对英文句法本身的理解能力不足也成为了不小的障碍,“明明每个单词都认识,却不知道整句话表达的意思”。刚开始时,她甚至需要用一周时间才能完全读懂一篇8页的英文论文。效率奇低让人懊恼,葛艺潇的内心也自然地做出了“不爱看、不想看”的反抗。
可能是察觉到学生情绪的变化,李鸿升老师要求新进入实验室的同学每周都要上交对当周所阅读3-4篇论文的总结,硬性要求当头,葛艺潇不得不强迫自己尽力完成。随着论文越看越多,两三个月后,她的阅读速度有很大提升,如果遇上当时比较熟悉的领域里的新论文,只要瞄一眼就能知道重点在哪里,如果只是粗读,一篇论文可能只需二十分钟。

在基础知识增长的同时,葛艺潇也在通过实践进行知识的验证,除了实验室前辈们留下的代码,GitHub为她提供了大量整理详尽的开源代码,有时没有合适的资源,她也要自己根据论文的描述完成代码的复现。即便代码可以轻松获得,葛艺潇也不仅限于看结果、纯调用,而是会一步一步理解代码内在的逻辑。
“创造力始于模仿”,艺潇想起自己做研究助理的那一年,所做最主要的工作就是模仿,看论文也好,跑代码也好,“你模仿到一定程度,你都很熟悉了,这时候你就会发现你能看到一些之前的人没有看见的突破点。”
成果来得比葛艺潇想象得快。
2018年9月,机器学习顶级会议NeurIPS宣布收录了艺潇在研究助理时期完成的一篇论文。收到论文入选通知时,正好是艺潇博士第一个学期刚开学,那天早上,她看着来自NeurIPS的邮件,对PhD阶段的学习充满了信心。


04 沉潜
“一整年不断地被拒论文,我觉得对我来说是一种快速的成长”
等到从研究助理正式转为博士生,那种由陌生带来的不适应减轻,但在汇集众多优秀学生的MMLab,同辈压力总是让人精神紧张。尤其是近年来,人工智能得到越来越多的关注,MMLab的入学门槛也越来越高,后进实验室的同学可能在学术成果上走得更快,没有人能赖在原地。
可是,2019年,葛艺潇却没有一篇论文入选顶会。且不说与别人比较,即使是与自己比,她也感到巨大的心理落差,甚至做好了延长读博时间的准备。
那年,她一共产出了2个工作。第一个工作先投CVPR,没中,修改后又和第二个工作一起投ICCV,又双叒没中。更不幸的是,第一个工作与CVPR-2019接收的一篇oral论文“撞了idea”,这意味着该投稿已经失去价值。
不过,尽管2019年是艺潇读博以来压力最大的一年,但她并不消沉。科研人的生活不只有科研,也绝不能只有科研,否则在遇到瓶颈时容易跳不出来。在压力太大时,葛艺潇喜欢通过运动寻找多巴胺,通过旅游放松自我。科研进展不顺利的2019,葛艺潇上半年去了台湾,年底又去了冰岛和芬兰。只要还在香港,哪怕是看电影、吃美食,艺潇还是会不自觉想到实验,而一旦踏上远方的旅程,什么烦恼似乎都可以完全抛在脑后。

压抑的情绪走得快,但问题还在。葛艺潇对自己当年第一个工作所使用的方法比较满意,所以被CVPR拒绝时,她没想太多,更多归因于偶然因素。但第二次又被拒,而其他方法相近的论文却被收录为oral,当年第二份比较满意的工作也没有得到理想的结果,葛艺潇也无法说服自己这是偶然因素了。
通过反复钻研主题相近的入选论文以及和老师持续且深入的讨论,艺潇觉得自己的问题还是在于有点浮躁。比如2019年的第二个工作,在她发现自己的新方法能把任务性能提高十几个百分点后,她就没有再多思考,后续写作和分析也相对比较草率。方法本身简单易懂、性能能打固然重要,但会议审稿关注的不仅仅是这些。葛艺潇在自己做了审稿人后,也就能把问题看得更加明白。审稿人往往抱着比较严苛的态度,试图找到论文中的不合理之处,所以在向别人展现成果之前,一定要学会换位思考,一层一层细致地论证自己方法的合理性,尽可能做到面面俱到。
面面俱到也体现在论文写作上,好的技术需要辅之以好的表达。葛艺潇2018年入选顶会的论文,在英文写作上其实获得了李鸿升老师非常大的帮助。由于之前没有接触过英文学术写作,艺潇的表达常常缺少明晰的逻辑,是李老师帮她“把论文的逻辑捋得非常通顺,而且能一眼就让人看见”贡献和亮点“。李老师的打样成为她学习的范本,但提高本身来得并没有那么快。
在认识到问题后,艺潇转变不够严谨的态度,对写作也更加上心。为了避免自我审视的盲区,她还会把自己的论文给其他领域的朋友看,如果除了技术的细节都能够被理解,那么这篇论文应该可以算写清楚了。

“一整年不断地被拒论文,我觉得对我来说是一种快速的成长”,这一年的反思和改进都在2020年得到了完全的展现——
曾被ICCV-2019拒绝的论文Mutual Mean-Teaching: Pseudo Label Refinery for Unsupervised Domain Adaptation on Person Re-identification经改进,成功收录于ICLR 2020;
随后,Self-supervising Fine-grained Region Similarities for Large-scale Image Localization 被ECCV 2020收录为spotlight presentation;
又有Self-paced Contrastive Learning with Hybrid Memory for Domain Adaptive Object Re-ID(点击这里直接阅读)被NeurIPS 2020收录……
艺潇觉得2020年的自己很幸运,但她也能清楚地看见自己与更厉害的人之间的差距,之前在意的可能是论文的数量,但越往后,她希望自己做的工作能有更大的影响力。



05 下一扇门
从实验室到工业界,面对下一扇打开的门,她已经做好了准备。
2021年,计算机视觉顶级会议CVPR接收了葛艺潇的三篇论文。算上做研究助理的一年,这已经是她在MMLab的第四年。毕业后,艺潇决定到更加贴近实际应用的工业界去。
“去工业界的朋友都是希望能够将技术真正落地到产品当中,我未来也是会往这个方向去进行努力。”
投身陌生的专业领域,需要力气,也需要勇气。时间好像又回到五年前——从实验室到工业界,艺潇即将真正走出象牙塔,面对下一扇打开但还看不清未来的大门,她已经做好了准备。

关于TechBeat人工智能社区
TechBeat(www.techbeat.net)隶属于将门创投,是一个荟聚全球华人AI精英的成长社区。我们希望为AI人才打造更专业的服务和体验,加速并陪伴其学习成长。期待这里可以成为你学习AI前沿知识的高地,分享自己最新工作的沃土,在AI进阶之路上的升级打怪的根据地!
更多详细介绍>>https://mp.weixin.qq.com/s/pTbCK_MeTk05jK2yx1RTrQ
- The End -