Self-RAG:通过自我反思学习检索、生成和批判
Basic Information:
Title: SELF-RAG: LEARNING TO RETRIEVE, GENERATE, AND CRITIQUE THROUGH SELF-REFLECTION (自我反思:通过自我反思学习检索、生成和批判)
Authors: Akari Asai, Zeqiu Wu, Yizhong Wang, Avirup Sil, Hannaneh Hajishirzi
Affiliation: University of Washington, Allen Institute for AI, IBM Research AI (华盛顿大学, Allen人工智能研究所, IBM研究人工智能)
Keywords: large language models, retrieval-augmented generation, self-reflection, factuality, citation accuracy (大型语言模型, 检索增强生成, 自我反思, 真实性, 引用准确性)
URLs: https://arxiv.org/abs/2310.11511v1
论文简要 :
本研究提出了一种名为SELF-RAG的新框架,通过检索和自我反思来提高大型语言模型的质量和真实性。实验证明,SELF-RAG在多个任务上显著优于现有模型,并在长篇生成中改善了真实性和引用准确性。
背景信息:
论文背景: 尽管大型语言模型具有出色的能力,但由于完全依赖其参数化知识,常常会产生包含事实错误的回答。检索增强生成(RAG)方法通过检索相关知识来减少这些问题,但无论是否需要检索或相关段落是否相关,都会不加选择地检索和合并固定数量的检索段落,从而降低了语言模型的多样性或导致无用的回答生成。
过去方案: 过去的RAG方法常常在生成之前只检索一次,而且没有明确训练模型利用提供的段落中的事实。这些方法在运行效率、对无关上下文的鲁棒性和缺乏归因方面存在问题。
论文的Motivation: 本研究旨在通过自我反思来提高大型语言模型的生成质量和真实性,同时保持其多样性。通过训练一个任意的语言模型,使其能够根据任务需求自适应地检索段落,并使用特殊的反思标记对检索到的段落和自身生成的内容进行生成和反思。这种方法使得语言模型在推理阶段具有可控性,能够根据不同的任务要求调整其行为。实验证明,SELF-RAG在多个任务上显著优于现有模型,并在长篇生成中改善了真实性和引用准确性。
方法:
a. 理论背景:
本文介绍了一种名为自我反思检索增强生成(Self-Reflective Retrieval-Augmented Generation, SELF-RAG)的新框架,通过检索和自我反思来提高大型语言模型(Large Language Models, LLMs)的质量和事实性。该框架训练一个单一的语言模型(LM),以自适应地检索段落、生成和反思检索到的段落以及自身生成的文本,使用反思标记。实验证明,SELF-RAG在各种任务上优于最先进的LLMs和检索增强模型,提高了长篇生成文本的事实性和引用准确性。
b. 技术路线:
SELF-RAG框架包括两个模型的训练过程:评论模型和生成模型。评论模型用于评估检索到的段落和任务输出的质量,生成模型则通过训练来生成带有反思标记的文本。评论模型的训练过程涉及收集评论模型的监督数据,并使用条件语言建模目标进行训练。生成模型则使用传统的语言模型目标进行训练,以便在推理时能够生成反思标记。
该研究旨在提高LLM输出的事实性,以解决当前存在的许多现实问题,例如信息误传和提供不正确和危险的建议。研究方法在性能、事实性和引用准确性方面取得了显著改进,但仍可能生成不完全由引用支持的输出。
提出了一个新的框架,叫做
自反馈检索增强生成
(SELF-RAG),它通过检索和自我反思来提高语言模型的生成质量和事实准确性。
设计了一种特殊的
反思标记
,用来指示检索的需求和生成的质量,包括相关性、支持度、完整度和效用。
采用了一种端到端的训练方法,让一个任意的语言模型学习在生成过程中使用反思标记,同时利用一个
批评模型
来离线地为原始语料插入反思标记和检索的文本片段。
提出了一种可定制的解码算法,利用反思标记的预测来满足不同的任务要求,例如调节检索的频率和选择最佳的生成结果。
在六个不同的任务上进行了实验,证明了SELF-RAG相比于现有的语言模型和检索增强模型有显著的优势,尤其是在提高生成的事实准确性和引用准确性方面。
结果:
a. 详细的实验设置:
训练数据包括多样的指令-输出对,共使用了150k个指令-输出对进行训练。生成模型的基础语言模型是Llama2 7B和13B,评论模型的基础语言模型是Llama2 7B。检索模型使用Contriever-MS MARCO模型,并为每个输入检索最多十个文档。实验评估了提出的SELF-RAG方法,并与各种基准模型在不同的下游任务上进行了比较。评估指标包括准确性、事实性、流畅性和其他任务特定的指标。进行了零样本评估,即提供指令但没有进行少样本演示。实验细节可以在附录中找到。
b. 详细的实验结果:
实验结果表明,SELF-RAG在各种下游任务上优于基准模型。生成的输出的准确性、事实性和流畅性相比其他模型都有显著提高。检索增强的基准模型相对于没有检索的基准模型也显示出了改进的性能。同时,使用检索到的文本段落进行训练的并行方法也取得了竞争性的结果。具体的性能指标和比较结果可以在附录中找到。

