Precise Zero-Shot Dense Retrieval without Relevance Labels
论文简要 :
本文提出了一种无需相关标签的精确零射密集检索方法,通过使用假设文档嵌入和指令跟随语言模型,能够在没有相关标签的情况下构建有效的零射密集检索系统,并在各种任务和语言上取得了强大的性能。
背景信息:
论文背景: 密集检索是一种使用语义嵌入相似性来检索文档的方法,在Web搜索、问答和事实验证等任务中已经被证明是有效的。然而,在没有相关标签的情况下构建零射密集检索系统仍然很困难。
过去方案: 过去的方法主要集中在监督学习的密集检索模型上,通过负采样、蒸馏和任务特定的预训练等方法来提高模型的效果。然而,零射密集检索仍然面临挑战,因为很难找到大规模的相关标签数据集。
论文的Motivation: 鉴于监督学习的限制,本文提出了一种新的方法,通过使用假设文档嵌入和指令跟随语言模型来解决零射密集检索的问题。这种方法能够在没有相关标签的情况下构建有效的密集检索系统,并在各种任务和语言上取得了强大的性能。
方法:
a. 理论背景:
本文介绍了密集检索的概念,即使用语义嵌入相似性检索文档的方法。它强调了零样本密集检索的挑战以及现有监督模型的局限性。
b. 技术路线:
本文提出了一种名为Hypothetical Document Embeddings (HyDE)的新方法,它利用生成式语言模型和对比编码器来创建有效的零样本密集检索系统,无需相关性标签。
HyDE方法通过使用无监督对比学习在仅文档嵌入空间中进行搜索。该方法基于查询和指令生成假设性文档,然后使用文档编码器对其进行编码。生成的文档捕捉相关性模式并用于检索。
实验结果表明,HyDE在各种任务和语言上优于先前的最先进模型。
结果:
a. 详细的实验设置:
本文在各种数据集上进行了网络搜索任务的实验。
将HyDE方法与基线系统(如Contriever和BM25)以及在大量相关性数据上微调的模型进行了比较。
b. 详细的实验结果:
实验结果表明,HyDE在MAP、NDCG@10和recall@1k等指标上显著改进了Contriever的性能。
在DL19/20的网络搜索结果中,HyDE是最佳性能模型,无论是否考虑相关性。
在BEIR的低资源任务中,HyDE在ndcg和recall方面改进了Contriever的性能。
在Mr.Tydi的MRR@100结果中,HyDE改进了mContriever模型,并且在没有相关性和整体上表现优于非Contriever模型。
在更改不同指令语言模型和使用微调编码器的情况下,所有模型都改进了无监督的Contriever,较大的模型带来了较大的改进。
使用微调编码器的HyDE对微调检索器的整体性能产生了负面影响,但性能下降仍然很小。
InstructGPT模型能够进一步提高性能,特别是在DL19上。