Generative Pseudo Labeling for Unsupervised Domain Adaptation of
Title: GPL: Generative Pseudo Labeling for Unsupervised Domain Adaptation of Dense Retrieval (GPL: 用于密集检索无监督领域自适应的生成伪标签方法)
论文简要 :
本文提出了一种新颖的无监督领域自适应方法,称为生成伪标签(GPL),通过将查询生成器与交叉编码器的伪标签相结合,可以在密集检索任务中提高性能,特别是在缺乏大量标注数据的领域中。
背景信息:
论文背景: 传统的基于词汇的信息检索方法受到词汇差异的限制,无法识别同义词和区分多义词。近年来,基于密集向量空间的密集检索方法得到了广泛应用,可以克服这些挑战,但需要大量的训练数据才能发挥良好的性能。
过去方案: 过去的研究表明,密集检索方法在领域转移时性能严重下降,限制了其在只有少量训练数据的领域中的应用。
论文的Motivation: 鉴于现有方法的局限性,本文提出了一种新的无监督领域自适应方法,通过生成伪标签的方式,结合查询生成器和交叉编码器,可以在缺乏大量标注数据的领域中提高密集检索方法的性能。
方法:
a. 理论背景:
传统的信息检索方法在词汇差异和歧义词辨别方面存在问题,无法识别同义词和区分歧义词。为了解决这些挑战,基于密集向量空间的密集检索方法被提出。然而,这些方法需要大量的训练数据,并且对领域转移非常敏感。本文提出了一种名为Generative Pseudo Labeling(GPL)的无监督领域自适应技术,用于密集检索模型。
b. 技术路线:
GPL方法结合了查询生成器和来自交叉编码器的伪标签,以改善在领域转移下密集检索器的性能。该方法通过在目标语料库中为每个段落生成合成查询,使用预先训练的检索系统检索负面段落,并使用交叉编码器对查询-段落对进行标记。然后,使用MarginMSE-Loss在这些标记的查询上训练领域自适应的密集检索器
框架流程:

首先,它使用一个预先训练好的T5编码-解码模型,为目标领域的文本段落生成合适的查询语句。
然后,它使用一个预先训练好的密集检索模型,为每个生成的查询语句检索出50个负面的文本段落,即与查询语句不相关的文本段落。
最后,它使用一个预先训练好的交叉编码器,为每个(查询语句,文本段落)对打上一个伪标签,即一个连续的相关性分数。
用这些生成的、伪标注的数据,它训练一个新的密集检索模型,使其能够将查询语句和文本段落映射到一个共享的、密集的向量空间中,从而实现目标领域的适应。
举个例子,假设目标领域是金融领域,一个文本段落是:
期货合约是一种衍生金融工具,它是一种协议,要求买方在未来的某个日期以事先确定的价格从卖方购买一定数量的某种商品或金融资产。
那么,一个可能的生成的查询语句是:
什么是期货合约?
为了找到负面的文本段落,我们可以使用一个在MS MARCO数据集上训练好的密集检索模型,根据查询语句和文本段落的向量之间的余弦相似度,从目标领域的文本库中检索出最不相似的50个文本段落。例如,一个可能的负面的文本段落是:
股票是一种所有权证券,它代表了对一家公司的所有权的一部分。股票的持有者可以从公司的利润中获得分红,并在公司解散时获得剩余资产的分配。
为了给每个(查询语句,文本段落)对打上一个伪标签,我们可以使用一个在MS MARCO数据集上训练好的交叉编码器,它可以根据查询语句和文本段落的语义关系,输出一个介于0到10之间的分数。例如,对于上面的例子,一个可能的伪标签是:
(什么是期货合约?,期货合约是一种衍生金融工具…) -> 9.3 (什么是期货合约?,股票是一种所有权证券…) -> 0.3
用这些生成的、伪标注的数据,我们可以使用MarginMSE损失函数,训练一个新的密集检索模型,使其能够将查询语句和文本段落映射到一个共享的、密集的向量空间中,从而实现目标领域的适应。这样,当我们在目标领域的文本库中进行检索时,我们就可以得到更准确和更相关的结果。
结果:
a. 详细的实验设置:
本文在BeIR基准测试中使用了六个代表性的领域特定数据集对GPL进行了评估。与仅在MS MARCO上训练的最先进模型相比,GPL在nDCG@10上的性能提升高达9.3个百分点。
b. 详细的实验结果:
当与TSDAE预训练方法相结合时,GPL在nDCG@10上额外平均提高了1.4个百分点。实验结果表明,GPL在无监督领域自适应密集检索中具有易用性、快速性和数据效率。