Improving Neural Ranking Models with Traditional IR Methods
URLs:https://arxiv.org/abs/2308.15027v1
论文简要 :
本文研究了一种低资源的替代方法,即使用词袋嵌入模型进行文档检索,并发现它在与信息检索任务上微调的大型Transformer模型相比具有竞争力。实验结果表明,将传统的关键词匹配方法TF-IDF与浅层嵌入模型简单结合,可以以较低的成本与复杂的神经排序模型在三个数据集上竞争。此外,添加TF-IDF度量可以提高大规模微调模型在这些任务上的性能。
背景信息:
论文背景: 近年来,基于大型Transformer模型的神经排序方法在信息检索领域引起了广泛关注,并被主要商业解决方案所采用。然而,这些方法在创建过程中计算成本高昂,并且需要大量标记数据用于特定语料库。
过去方案: 传统的信息检索方法如TF-IDF和BM25对基于关键词的查询非常有效,但对包含完整句子的自然语言查询效果不佳。这些模型基于精确匹配的思想,要求查询中的标记必须在文档中才被视为相关。文档之间的相关性通过匹配标记的频率和重要性进行比较。然而,对于包含完整句子的自然语言查询,这种方法效果不佳。
论文的Motivation: 本文旨在探索一种低资源的替代方法,将传统的关键词匹配方法TF-IDF与浅层嵌入模型结合,以提供一种低成本的竞争性路径,与在信息检索任务上微调的复杂神经排序模型的性能相媲美。通过将TF-IDF度量与大规模微调模型结合,进一步提高了这些任务的性能。
方法:
a. 理论背景:
本文探讨了一种低资源的替代方法,用于文档检索中代替昂贵的神经排序模型。作者发现,将传统的TF-IDF关键词匹配方法与浅层嵌入模型相结合,可以提供一种具有竞争力的成本效益方法,与复杂的神经排序模型相媲美。他们还表明,添加TF-IDF度量可以提高大规模微调模型在信息检索任务中的性能。
b. 技术路线:
作者提出了一种检索方法,将神经检索模型与关键词匹配方法相结合,提供了一种弱监督的方法,可以扩展到数百万个文档。
作者训练了一个双编码器模型,用于匹配查询和文章。该模型使用两个相同的编码器对查询和文章进行编码,通过平均词嵌入返回嵌入向量。使用余弦相似度计算查询和文章之间的相似度得分。该模型使用边界损失函数进行训练,最大化正负对之间的分数差异。
结果:
a. 详细的实验设置:
作者在三个数据集上进行了实验:Signal Media News数据集,维基百科语料库和Google自然问题数据集。他们通过选择文章的第一句作为查询,将其余部分作为文章,形成查询-文章对。数据集被洗牌并分为训练、验证和测试集。
b. 详细的实验结果:
作者在维基百科数据集上训练了20个epoch的嵌入模型,在新闻和自然问题数据集上训练了50个epoch。
嵌入维度设置为768,批量大小设置为1000,边界参数δ根据验证集性能设置为0.5。
使用TF-IDF基线模型,在去除停用词后使用了单个词和双词,使用了scikit-learn实现。
使用BM25基线模型,使用网格搜索调整了参数k1在范围[0.5:0.5:5]和b在范围[0.3:0.1:0.9]。
使用Dirichlet语言模型基线,使用平滑参数µ从范围{100, 200, 300, 400, 500, 1000, 1500, 2000, 2500, 3000}进行调整。
使用预训练模型msmarco-distibert-base-v2,基于BERT,并在MSMARCO段落排序数据集上进行了微调。
使用平均倒数排名(MRR)和前k个结果的平均精度(k = 1,3,10)评估了新闻、维基百科和自然问题数据集上的检索性能。