Fine-tune the Entire RAG Architecture (including DPR retriever)

2023-09-11 21:23 作者:三月phanta 0人读过 | 我要投稿

Title: Fine-tune the Entire RAG Architecture (including DPR retriever) for Question-Answering
论文简要 :
本文介绍了如何对检索增强生成（RAG）架构进行端到端的微调，包括DPR检索器。通过解决工程挑战，实现了整个RAG架构的端到端微调，并与原始RAG架构进行了比较，证明了端到端RAG架构在问答任务中的优越性能。
背景信息:
论文背景: 本文介绍了一种名为Retrieval Augmented Generation（RAG）的NLP模型，该模型可以使用外部知识库中的一组支持文档作为潜在变量来生成最终输出。RAG模型由输入编码器、神经检索器和输出生成器组成，其中所有三个组件都使用预训练的transformers进行初始化。
过去方案: 原始的Hugging Face实现只允许对输入编码器和输出生成器进行端到端微调，而神经检索器需要单独训练。迄今为止，尚不存在训练所有三个组件的端到端RAG实现。
论文的Motivation: 本文的动机在于扩展RAG实现，实现对整个RAG架构的端到端微调。虽然这看起来很简单，但需要解决许多工程挑战。
方法:
a. 理论背景:

本文介绍了检索增强生成（RAG）的概念，并强调了原始RAG实现的局限性。作者提出了一种新的方法，使整个RAG架构可以以端到端的方式进行训练。他们强调了对整个RAG检索器进行微调的重要性，并讨论了实现这一目标所涉及的工程挑战。作者还比较了原始RAG和端到端RAG在问答任务上的性能，并提供了开源实现。

作者重点关注RAG检索器，该检索器由预训练的Dense Passage Retrieval（DPR）模型组成。他们解释说，在原始的RAG实现中，只有问题编码器是可训练的，而段落编码器是冻结的。然而，在他们的方法中，他们也使段落编码器可训练。他们描述了使用段落编码器对外部知识库（KB）进行编码的过程，以及使用聚类等近似方法来加速检索阶段。他们还提到了对整个RAG检索器进行领域适应的训练的重要性。

作者使用SQuAD数据集进行实验，评估了他们的端到端训练扩展的有效性。他们使用SQuAD数据集中的上下文段落创建了一个知识库，并使用标准的训练和验证集对模型进行了训练和评估。

标签：

论文简要 :