欢迎光临散文网会员登陆 & 注册

Improving Neural Ranking Models with Traditional IR Methods

2023-08-30 21:20 作者:三月phanta 0人读过 | 我要投稿

URLs:https://arxiv.org/abs/2308.15027v1

论文简要 :

本文研究了一种低资源的替代方法，即使用词袋嵌入模型进行文档检索，并发现它在与信息检索任务上微调的大型Transformer模型相比具有竞争力。实验结果表明，将传统的关键词匹配方法TF-IDF与浅层嵌入模型简单结合，可以以较低的成本与复杂的神经排序模型在三个数据集上竞争。此外，添加TF-IDF度量可以提高大规模微调模型在这些任务上的性能。

背景信息:

论文背景: 近年来，基于大型Transformer模型的神经排序方法在信息检索领域引起了广泛关注，并被主要商业解决方案所采用。然而，这些方法在创建过程中计算成本高昂，并且需要大量标记数据用于特定语料库。
过去方案: 传统的信息检索方法如TF-IDF和BM25对基于关键词的查询非常有效，但对包含完整句子的自然语言查询效果不佳。这些模型基于精确匹配的思想，要求查询中的标记必须在文档中才被视为相关。文档之间的相关性通过匹配标记的频率和重要性进行比较。然而，对于包含完整句子的自然语言查询，这种方法效果不佳。
论文的Motivation: 本文旨在探索一种低资源的替代方法，将传统的关键词匹配方法TF-IDF与浅层嵌入模型结合，以提供一种低成本的竞争性路径，与在信息检索任务上微调的复杂神经排序模型的性能相媲美。通过将TF-IDF度量与大规模微调模型结合，进一步提高了这些任务的性能。

方法:

a. 理论背景:

本文探讨了一种低资源的替代方法，用于文档检索中代替昂贵的神经排序模型。作者发现，将传统的TF-IDF关键词匹配方法与浅层嵌入模型相结合，可以提供一种具有竞争力的成本效益方法，与复杂的神经排序模型相媲美。他们还表明，添加TF-IDF度量可以提高大规模微调模型在信息检索任务中的性能。

b. 技术路线:

作者提出了一种检索方法，将神经检索模型与关键词匹配方法相结合，提供了一种弱监督的方法，可以扩展到数百万个文档。
作者训练了一个双编码器模型，用于匹配查询和文章。该模型使用两个相同的编码器对查询和文章进行编码，通过平均词嵌入返回嵌入向量。使用余弦相似度计算查询和文章之间的相似度得分。该模型使用边界损失函数进行训练，最大化正负对之间的分数差异。

结果:

a. 详细的实验设置:

作者在三个数据集上进行了实验：Signal Media News数据集，维基百科语料库和Google自然问题数据集。他们通过选择文章的第一句作为查询，将其余部分作为文章，形成查询-文章对。数据集被洗牌并分为训练、验证和测试集。

b. 详细的实验结果:

作者在维基百科数据集上训练了20个epoch的嵌入模型，在新闻和自然问题数据集上训练了50个epoch。
嵌入维度设置为768，批量大小设置为1000，边界参数δ根据验证集性能设置为0.5。
使用TF-IDF基线模型，在去除停用词后使用了单个词和双词，使用了scikit-learn实现。
使用BM25基线模型，使用网格搜索调整了参数k1在范围[0.5:0.5:5]和b在范围[0.3:0.1:0.9]。
使用Dirichlet语言模型基线，使用平滑参数µ从范围{100, 200, 300, 400, 500, 1000, 1500, 2000, 2500, 3000}进行调整。
使用预训练模型msmarco-distibert-base-v2，基于BERT，并在MSMARCO段落排序数据集上进行了微调。
使用平均倒数排名（MRR）和前k个结果的平均精度（k = 1,3,10）评估了新闻、维基百科和自然问题数据集上的检索性能。

标签：

Improving Neural Ranking Models with Traditional IR Methods的评论 (共条)