Re2G: Retrieve, Rerank, Generate

论文简要 :
本文提出了一种名为Re2G的方法,结合了神经检索和重新排序,用于基于BART的序列到序列生成任务。通过引入知识蒸馏的新变体,该方法在零样本槽填充、问答、事实检查和对话等四个不同任务上取得了显著的性能提升,相对于之前的最先进方法在KILT排行榜上的相对增益为9%至34%。
背景信息:
论文背景: 过去的研究表明,随着参数空间的增大,transformers模型的能力也在增强。然而,对于需要大量知识的任务来说,非参数化记忆允许模型在计算成本和GPU内存需求的亚线性增长的情况下显著扩展。
过去方案: 近期的研究工作引入了检索机制来支持条件生成任务。例如,RAG和REALM模型通过从语料库中进行神经检索来扩展模型的信息来源。这些模型可以利用语料库作为知识源,以亚线性的计算成本扩展模型可用的信息量。
论文的Motivation: 在REALM和RAG的基础上,本文提出了一种名为Re2G的新方法,将神经检索和重新排序结合到基于BART的序列到序列生成中。与之前的方法相比,Re2G的重新排序方法允许合并具有不可比较分数的检索结果,同时引入了一种新颖的知识蒸馏变体来实现端到端的训练。本文通过在KILT上进行实验评估,取得了在零样本槽填充、问答、事实检查和对话等四个任务上的显著性能提升,相对于之前的最先进方法在KILT排行榜上的相对增益为9%至34%。
方法:
a. 理论背景:
本文介绍了一种名为Re2G(Retrieve, Rerank, Generate)的新方法,将神经初始检索和重新排序结合到基于BART的序列到序列生成中。作者提出了一种新颖的知识蒸馏变体,使用目标序列输出上的真实数据来训练初始检索、重新排序和生成。Re2G模型在零样本槽填充、问答、事实检查和对话四个不同任务中取得了显著的增益,在KILT排行榜上相对于先前最先进的方法提高了9%到34%。论文还讨论了领域内的相关工作,并提供了KILT基准和基线方法的概述。
b. 技术路线:
Re2G系统基于RAG(Retrieval-Augmented Generation)架构,并引入了一个重新排序器来改进初始检索阶段返回的段落排序。重新排序器基于使用BERT transformer的序列对分类模型。用于初始检索的表示模型是DPR(Dense Passage Retrieval)的双编码器模型。训练过程包括四个阶段:DPR训练、生成训练、重新排序训练和完全端到端训练。重新排序训练使用DPR和BM25(一种检索方法)的结果作为训练数据。完全端到端训练存在一个挑战,即由于使用重新排序器分数而不是初始检索分数,查询编码器的梯度变为零。对此问题考虑了三种可能的解决方案:结合DPR和重新排序器分数、冻结查询编码器或使用在线知识蒸馏。
Re2G模型的训练流程包括以下四个阶段:
DPR训练:这个阶段是用来训练一个双向编码器模型,用于从一个索引的语料库中检索相关的段落。训练数据是由查询、正例段落和负例段落组成的三元组,负例段落是从BM25检索中选择的。训练目标是最大化正例段落和查询向量之间的内积,同时最小化负例段落和查询向量之间的内积。
生成训练:这个阶段是用来训练一个基于BART的序列到序列模型,用于从每个检索到的证据段落和查询的拼接序列中生成目标输出。训练目标是最大化目标输出序列的对数似然。
重新排序训练:这个阶段是用来训练一个基于BERT的交互模型,用于对检索到的段落进行重新排序。训练数据是由查询、候选段落集合和正确段落集合组成的元组,正确段落集合是从出处信息中获取的。训练目标是最大化正确段落在候选段落集合中的对数似然。
完全端到端训练:这个阶段是用来同时训练DPR、重新排序和生成模型,使得整个系统能够端到端地优化目标输出。为了实现这一点,我们引入了一种新颖的知识蒸馏方法,利用重新排序模型作为教师模型,为DPR学生模型提供标签。我们使用KL散度作为损失函数,衡量DPR和重新排序模型在候选段落上的概率分布之间的差异。
完全端到端训练的过程:
首先,作者将检索器(DPR)、重排器(BERT)和生成器(BART)分别单独训练,使用不同的训练数据和目标函数。
然后,作者将生成器和检索器联合起来,生成器的任务是根据查询和检索到的段落生成目标输出,例如有趣的事实、图像描述等。检索器的任务是根据查询从一个大型的语料库中检索出相关的段落。生成器的输出可以反馈给检索器,作为一种监督信号,告诉检索器哪些段落是更好的候选。这样,检索器就可以更新自己的参数,提高自己的检索能力。
最后,作者将重排器作为教师模型,检索器作为学生模型,使用知识蒸馏的方法,让检索器学习重排器的概率分布。这一步可以进一步提升检索器的性能,并且使得检索器和重排器之间的分数更加一致。
结果:
a. 详细的实验设置:
Re2G模型在KILT基准的多个数据集上取得了显著的性能提升。在R-Precision、Recall@5、Accuracy、F1等指标上,它在T-REx、Natural Questions、TriviaQA、FEVER和Wizard of Wikipedia数据集上相对于先前最先进的方法分别取得了9%、31%、34%、22%和10%的增益。除Wizard of Wikipedia数据集外,它目前在所有数据集的KILT指标中占据头衔位置。
b. 详细的实验结果:
表格显示了Re2G系统在训练的每个步骤中检索性能的改进。仅使用初始检索的DPR Stage 1在使用BM25的批量负例和困难负例的真实来源的训练下进行训练。KGI0进一步通过生成目标输出来训练DPR Stage 1的查询编码器。最后,Re2G通过重新排序器从DPR进行在线知识蒸馏来扩展训练。结果显示,前几个步骤在所有数据集上都提高了性能,而重新排序训练在所有数据集上都优于DPR。