兰艳艳:SIGIR十年趋势
2020 年 5 月 23 日上午,在中国中文信息学会青年工作委员会主办、北京智源人工智能研究院和美团点评承办的“ACL-IJCAI-SIGIR 顶级会议论文报告会(AIS2020)”中,智源青年科学家、中科院计算所研究员兰艳艳做了题为《SIGIR 趋势报告》的前沿分析。

兰艳艳,主要研究方向为机器学习和信息检索,在相关领域重要会议和期刊累计发表论文 30 余篇,获得了 SIGIR 2012 的最佳学生论文奖和 CIKM 2017 最佳论文 Runnerup 奖。
本次演讲中,兰艳艳介绍了近10年 SIGIR 论文投稿和录稿的整体发展趋势,并着重分析了SIGIR最近两年会议论文中的研究热点和动向,以及就如何提高SIGIR 的投稿录取率分享了自己的经验和技巧。 据悉,作为信息检索领域的顶级会议, SIGIR 2020 即将于7月25日召开,所以本篇报告也很适于大家预热一下对信息检索领域最新动态的趋势性认知,是一篇很好的SIGIR 2020 观摩指南。以下是智源社区编辑为大家整理的演讲内容,请大家阅读。
整理:智源社区 马瑞军
一、SIGIR 2020 背景介绍
兰艳艳首先简明扼要地介绍了一下SIGIR 2020的相关背景。
SIGIR 属于信息检索领域的顶级会议,由 ACM SIGIR 组织于 1978 年开始举办。举办方式是每三年在美洲、欧洲和其它区域轮换进行,比如2017 年在日本东京、2018 年在美国密西根大学、2019 年在法国巴黎,而2020年的SIGIR 会议将在中国西安举行。因为疫情的影响,这次SIGIR 2020 已经改为线上举办的模式。值得一提的是,这次中国学者在 SIGIR 2020 的组委会中占据了一半以上,这意味着中国学者经过艰辛的努力后,在 SIGIR 中开始有着非常良好的发展。
二、SIGIR 投稿和录稿十年趋势分析

如图1所示的1999年至2019年SIGIR 论文投稿及录稿趋势,我们可以看到在 2009至2012 年之间 SIGIR 投稿、录取数达到了顶峰阶段,而在 2012 年之后出现了明显的下滑,直到2018 年,经过征文主题的改革后,SIGIR 才出现复苏,到2020年开始有了一个比较大的增长,无论是投稿量还是收稿量都实现了突破,500多篇中有140篇被接收,录取率也从之前的18%至22%之间增长到28%。
接下来,兰艳艳比较了2019、2020年中美学者的论文接收情况。我们发现,自 2019 年开始,中国学者在接收率上(36/141)第一次取得了比美国学者更好的成绩(22/99)。2020 年,从目前的数据来看,中国学者持续 了2019 年的超越趋势,稳中向好,其中Full Paper的接收量为67篇,远高于美国的37篇,而Short Paper 的情况也和Full Paper类似,具体接收率等数据还需等待会议官方揭晓。



三、SIGIR 最近两年的研究热点
下面我们来看一下2019年的SIGIR主题分布(图4),自2018开始,它相对于以前有了很大的改变,会议主题设置已经从检索、搜索和推荐等开始向更多的方向扩展,包括Core IR、Recommendation、AI&IR、Human、Evaluation、Application、Foundation and Future等,所以整个SIGIR近两年的改革方向将会更加开放,尤其鼓励更多AI与IR结合的方向。

根据对 2019 年 SIGIR 热门Topic 及收稿统计数据的研究,我们可以从中发现如下几个规律:
① Recommendation成为主要Track;
② Core AI式微;
③ 投稿量高的Track,不一定接受率就高;
④ Human和Evaluation等小众Track,投稿量少但是接受率很高,值得关注。


2020 年热门 Topic 的接受率与 2019 年相比基本相同,依旧是 Recommendation 占了最大的比重,投稿量和接收量仍然最多;由于 Ranking 和 Search 属于 AI 非常关注的问题,所以比重也很大,Foundation、Human 和 Evaluation 持续小众。
综合来说,Recommendation是SIGIR目前的主要Topic之一,同时一些小众Topic,例如Human和Evaluation在录取率方面也有一定的优势。


下面,我们通过Full Paper 和Short Paper 的词云图来进一步看2019年、2020年 SIGIR 的研究热点。首先,通过2019 年、2020 年的 Full Paper 词云图中可以看到, 从任务的角度上看, Search、Recommendation 和 Generation 等多个方面的研究比较多,使用的方法主要是Machine Learning、Knowledge Embedding、Graph Neural Network等方法。其中,Search任务上,这几年的研究热点主要是如何将深度神经网络包括强化学习在内的一些新方法,用到检索函数的设计上;Recommendation任务上,除了基于神经网络的推荐函数之外,推荐系统与用户的交互,以及推荐系统的解释性,都是这两年的研究热点;Generation任务最近两年在SIGIR的投稿量明显增多,除了一般的NLP任务,SIGIR更关注应用于Conversational IR的对话研究,期待该方向的研究能够更好的推动个人智能助手技术的发展。此外Adversary 也是最近两年比较受关注的, 比如 SIGIR 2017年曾将 Best Paper Runner-Up奖颁布给了Adversary方面的工作 “IRGAN: AMinimax Game for Unifying Generative and Discriminative Information Retrieval Models”。


从 Short Paper 词云图的角度,2019 年和 2020 年的趋势与Full Paper 词云图呈现的发展趋势类似,也是 Recommendation 占据了很大一部分,同时还可以看到像Transformer 这样的 AI 新方法正开始受到欢迎。
通过上述词云图的分析,我们可以得到这样几个规律:
① IR 更加关注的还是 Traditional IR tasks,例如:Recommendation, Search, Ranking;
② Neural + IR 正在流行,如 Neural, Representation, Graph, Attention;
③ 目前在 IR 中收到关注的前沿AI技术有:Adversarial 和 Transformer;
④ 目前 Diverse Applications 例如 Generation, Conversation, Multi Domain 相对更加容易发论文。
四、SIGIR 投稿建议:关注基础,重视技术
接下来,兰艳艳根据近年SIGIR的论文发表情况,为大家分享了一些SIGIR论文的中稿技巧。首先,她盘点了SIGIR 往年的 Best Paper,指出 SIGIR 是一个关注基础的会议,比较重视技术,比如 2019 年颁给了一个研究优化方法的文章,2016 年颁给了 Understanding Information Need,今年的 Best Paper 花落谁家,请拭目以待。

图8:SIGIR 历年最佳论文
那么,如何提高论文在 SIGIR 的接收率呢?可以关注以下几个小技巧:
① 拓展投稿领域。透过SIGIR的发展规律,可以发现它接受论文的领域圈子变得越来越广,AR、ML、NLP 等相关领域都可以投稿。
② 重视实验部分。SIGIR 是特别注重实验的会议,想要做一篇好的 SIGIR Paper, 实验内容要占到文章总篇幅的近一半内容,因此实验部分一定要做的足够充分。
③ 新的 Application 可能会更加受欢迎。如果文章是关于一个新 Application,比如 Cross-domain 或者 Human Study,那么此类文章相对比较容易引起 SIGIR 关注,做模型反而是比较困难的事情。
④ 冷门领域新出路。当前ML领域开始收到关注但在应用上看来还比较偏的领域,实际上在 SIGIR 圈子当中比较受欢迎,例如 Bias, Fairness 和 Interpretability。这也和SIGIR关注的应用比较有关系。例如搜索或推荐中有很典型的Position Bias问题,这对于建模就是一个非常重要的问题;再比如现在IR中用到很多神经网络的方法,但这些方法往往很难解释,但对IR系统来说,提供一个可解释的结果对用户体验是很重要的,所以可解释性方向在IR领域越来越受关注。