A Framework for Developing and Evaluating Retrieval-Augmented LL
Title: RALLE: A Framework for Developing and Evaluating Retrieval-Augmented Large Language Models (R-LLMs)
url:https://arxiv.org/abs/2308.10633v1
论文简要 :
本文提出了一个名为RALLE的开源框架,用于开发和评估检索增强的大型语言模型(R-LLMs),以提高事实问答的准确性。该框架允许开发人员轻松开发和评估R-LLMs,改进手工设计的提示,评估单独的推理过程,并定量地测量整体系统性能。通过利用这些功能,开发人员可以在知识密集型生成任务中提高R-LLMs的性能和准确性。
背景信息:
论文背景: 大型语言模型(LLMs)在自然语言理解和生成任务中显示出巨大潜力,但在回答事实性问题时面临幻觉、过时的参数化知识和参数化知识的内存效率等挑战。为了解决这些限制,研究人员转向了检索增强方法,即将预训练的大型语言模型(LLMs)与信息检索系统结合起来,以提高事实问答的准确性。
过去方案: 现有的用于构建R-LLMs的库提供了高级抽象,但在评估和优化特定推理过程(如检索和生成)中的提示时缺乏足够的透明度。
论文的Motivation: 为了填补这一空白,本文提出了RALLE,这是一个开源框架,旨在促进开发、评估和优化用于知识密集型任务的R-LLMs。通过RALLE,开发人员可以轻松开发和评估R-LLMs,改进手工设计的提示,评估单独的推理过程,并定量地测量整体系统性能。通过利用这些功能,开发人员可以在知识密集型生成任务中提高R-LLMs的性能和准确性。

方法:
a. 理论背景:
本文介绍了检索增强型大型语言模型(R-LLMs)的概念,并强调了当前用于构建R-LLMs的库的局限性。它强调了在特定推理过程(如检索和生成)中评估和优化提示的透明度的需求。作者提出了RALLE,这是一个开源框架,旨在促进知识密集型任务的R-LLMs的开发、评估和优化。该框架旨在通过允许开发人员轻松开发和评估R-LLMs,改进手工制作的提示,评估单个推理过程,并定量衡量整体系统性能来提高R-LLMs的性能和准确性。
b. 技术路线:
在实验中,使用了检索器和LLMs来构建R-LLMs。R-LLMs中使用的LLMs是经过指令调整的LLMs,温度参数设置为零,以实现最佳性能和可重复性。
实验中使用了两个LLM模型,Llama2-13B和Llama2-70B。
用于文档检索的检索器包括BM25、e5-large-v28(e5)和multilingual-e5-large9(m-e5)。
使用页面级R-precision和recall@5指标评估检索性能。
在KILT中,为每个数据集使用自定义的提示模板。
对于实体链接任务,使用REWRITE-EL模板进行搜索查询。
将R-LLMs的下游性能与基准模型BART-large和RAG进行了比较。
构建的R-LLMs表现出可接受的准确性水平,并在HoPo和TQA数据集上超过了RAG模型的性能。
模型的工作流程是这样的:
首先,根据任务和数据集的名称,选择一个合适的检索器和LLM,以及一个提示模板。例如,对于事实检查任务和FEVER数据集,可以选择BM25作为检索器,Llama2-70B作为LLM,以及"{claim}是真的吗?"作为提示模板。
然后,使用检索器从维基百科段落中检索出与输入相关的文档。例如,对于输入"巴黎是法国的首都",可以检索出包含"巴黎"和"法国"的文档。
接着,使用LLM根据提示模板生成输出。例如,对于输入"巴黎是法国的首都",可以生成"巴黎是法国的首都是真的。"作为输出。
最后,将生成的输出返回给用户,并报告检索器和LLM的名称、提示模板、检索到的文档数量、生成时间等信息。例如,对于输入"巴黎是法国的首都",可以返回以下信息:巴黎是法国的首都是真的。这个答案是由BM25和Llama2-70B生成的,使用了"{claim}是真的吗?"作为提示模板。检索到了10个相关文档,生成时间为0.5秒。
结果:
a. 详细的实验设置:
实验结果显示,本研究中使用的R-LLMs具有理解检索文档和在知识密集型任务上表现良好的能力。
下游评估结果为改进提供了有价值的见解,例如检索增强、增加模型规模和在生成过程中引用更多文档。然而,一些数据集显示了与这些趋势相反的异常情况,或者在性能上低于其相应的has_answer百分比。
开发人员可以通过优化推理链和提示模板来改进R-LLM,RALLE为此提供了便利。
b. 详细的实验结果:
本文介绍了RALLE,这是一个用于开发和评估检索增强型语言模型(R-LLMs)的框架。报告了使用开源检索器和LLMs构建的几个R-LLMs在知识密集型任务上的评估结果。RALLE在检索增强型生成研究中提供了重要进展,能够高效地开发、评估和改进R-LLMs。希望RALLE能为R-LLMs的最佳实践的发展做出贡献。