Re2G: Retrieve, Rerank, Generate

2023-08-07 14:33 作者:三月phanta 0人读过 | 我要投稿

论文简要 :

本文提出了一种名为Re2G的方法，结合了神经检索和重新排序，用于基于BART的序列到序列生成任务。通过引入知识蒸馏的新变体，该方法在零样本槽填充、问答、事实检查和对话等四个不同任务上取得了显著的性能提升，相对于之前的最先进方法在KILT排行榜上的相对增益为9%至34%。

论文背景: 过去的研究表明，随着参数空间的增大，transformers模型的能力也在增强。然而，对于需要大量知识的任务来说，非参数化记忆允许模型在计算成本和GPU内存需求的亚线性增长的情况下显著扩展。
过去方案: 近期的研究工作引入了检索机制来支持条件生成任务。例如，RAG和REALM模型通过从语料库中进行神经检索来扩展模型的信息来源。这些模型可以利用语料库作为知识源，以亚线性的计算成本扩展模型可用的信息量。
论文的Motivation: 在REALM和RAG的基础上，本文提出了一种名为Re2G的新方法，将神经检索和重新排序结合到基于BART的序列到序列生成中。与之前的方法相比，Re2G的重新排序方法允许合并具有不可比较分数的检索结果，同时引入了一种新颖的知识蒸馏变体来实现端到端的训练。本文通过在KILT上进行实验评估，取得了在零样本槽填充、问答、事实检查和对话等四个任务上的显著性能提升，相对于之前的最先进方法在KILT排行榜上的相对增益为9%至34%。

本文介绍了一种名为Re2G（Retrieve, Rerank, Generate）的新方法，将神经初始检索和重新排序结合到基于BART的序列到序列生成中。作者提出了一种新颖的知识蒸馏变体，使用目标序列输出上的真实数据来训练初始检索、重新排序和生成。Re2G模型在零样本槽填充、问答、事实检查和对话四个不同任务中取得了显著的增益，在KILT排行榜上相对于先前最先进的方法提高了9%到34%。论文还讨论了领域内的相关工作，并提供了KILT基准和基线方法的概述。

Re2G系统基于RAG（Retrieval-Augmented Generation）架构，并引入了一个重新排序器来改进初始检索阶段返回的段落排序。重新排序器基于使用BERT transformer的序列对分类模型。用于初始检索的表示模型是DPR（Dense Passage Retrieval）的双编码器模型。训练过程包括四个阶段：DPR训练、生成训练、重新排序训练和完全端到端训练。重新排序训练使用DPR和BM25（一种检索方法）的结果作为训练数据。完全端到端训练存在一个挑战，即由于使用重新排序器分数而不是初始检索分数，查询编码器的梯度变为零。对此问题考虑了三种可能的解决方案：结合DPR和重新排序器分数、冻结查询编码器或使用在线知识蒸馏。
Re2G模型的训练流程包括以下四个阶段：

DPR训练：这个阶段是用来训练一个双向编码器模型，用于从一个索引的语料库中检索相关的段落。训练数据是由查询、正例段落和负例段落组成的三元组，负例段落是从BM25检索中选择的。训练目标是最大化正例段落和查询向量之间的内积，同时最小化负例段落和查询向量之间的内积。
生成训练：这个阶段是用来训练一个基于BART的序列到序列模型，用于从每个检索到的证据段落和查询的拼接序列中生成目标输出。训练目标是最大化目标输出序列的对数似然。
重新排序训练：这个阶段是用来训练一个基于BERT的交互模型，用于对检索到的段落进行重新排序。训练数据是由查询、候选段落集合和正确段落集合组成的元组，正确段落集合是从出处信息中获取的。训练目标是最大化正确段落在候选段落集合中的对数似然。
完全端到端训练：这个阶段是用来同时训练DPR、重新排序和生成模型，使得整个系统能够端到端地优化目标输出。为了实现这一点，我们引入了一种新颖的知识蒸馏方法，利用重新排序模型作为教师模型，为DPR学生模型提供标签。我们使用KL散度作为损失函数，衡量DPR和重新排序模型在候选段落上的概率分布之间的差异。
完全端到端训练的过程：

首先，作者将检索器（DPR）、重排器（BERT）和生成器（BART）分别单独训练，使用不同的训练数据和目标函数。
然后，作者将生成器和检索器联合起来，生成器的任务是根据查询和检索到的段落生成目标输出，例如有趣的事实、图像描述等。检索器的任务是根据查询从一个大型的语料库中检索出相关的段落。生成器的输出可以反馈给检索器，作为一种监督信号，告诉检索器哪些段落是更好的候选。这样，检索器就可以更新自己的参数，提高自己的检索能力。
最后，作者将重排器作为教师模型，检索器作为学生模型，使用知识蒸馏的方法，让检索器学习重排器的概率分布。这一步可以进一步提升检索器的性能，并且使得检索器和重排器之间的分数更加一致。

Re2G模型在KILT基准的多个数据集上取得了显著的性能提升。在R-Precision、Recall@5、Accuracy、F1等指标上，它在T-REx、Natural Questions、TriviaQA、FEVER和Wizard of Wikipedia数据集上相对于先前最先进的方法分别取得了9%、31%、34%、22%和10%的增益。除Wizard of Wikipedia数据集外，它目前在所有数据集的KILT指标中占据头衔位置。

表格显示了Re2G系统在训练的每个步骤中检索性能的改进。仅使用初始检索的DPR Stage 1在使用BM25的批量负例和困难负例的真实来源的训练下进行训练。KGI0进一步通过生成目标输出来训练DPR Stage 1的查询编码器。最后，Re2G通过重新排序器从DPR进行在线知识蒸馏来扩展训练。结果显示，前几个步骤在所有数据集上都提高了性能，而重新排序训练在所有数据集上都优于DPR。

标签：