Title: RankVicuna: Zero-Shot Listwise Document Reranking with Op
论文简要 :
本研究提出了RankVicuna,这是第一个完全开源的大型语言模型,能够在零样本设置下进行高质量的列表排序。实验结果表明,我们可以使用比GPT3.5小得多的7B参数模型实现与GPT3.5相当的零样本排序效果,尽管我们的效果略逊于GPT4。我们希望我们的工作为未来基于现代大型语言模型的重新排序研究奠定基础。
背景信息:
论文背景: 近年来,大型语言模型在自然语言处理和信息检索任务中得到了广泛应用。在文本检索的背景下,已经有多个研究致力于使用大型语言模型进行零样本列表排序,但遗憾的是,迄今为止,它们都依赖于专有模型。这种方法虽然支持快速原型开发,但基于这些模型的实验结果的可重复性值得怀疑,这对于构建在这种不稳定基础上的结果的真实性构成了威胁。
过去方案: 以往的方法主要依赖于专有模型,这导致实验结果不可重复且不确定,限制了研究的可靠性。
论文的Motivation: 为了解决这个问题,本研究提出了RankVicuna,这是第一个完全开源的大型语言模型,能够在零样本设置下进行高质量的列表排序。通过在TREC 2019和2020 Deep Learning Tracks上的实验验证,我们证明了我们的模型的有效性与使用GPT3.5进行零样本排序相当,但略逊于使用GPT4进行排序。我们的模型只使用了7B参数,相比之下要小得多。我们分享了模型检查点和相关代码,为研究社区提供了宝贵的资源。
方法:
a. 理论背景:
本文讨论了在信息检索任务中使用大型语言模型(LLMs)进行重新排序的方法。作者强调了依赖专有模型的局限性,以及需要一个开源的LLM来实现可重复和确定性的结果。作者介绍了RankVicuna作为第一个完全开源的LLM,在zerp-shot设置下能够进行高质量的列表式重新排序。他们提到RankVicuna通过较小的7B参数模型实现了与GPT3.5相当的效果,尽管稍逊于GPT4。作者还强调了他们的工作对于未来基于现代LLM的重新排序研究的重要性。
b. 技术路线:
本研究基于之前的工作,该工作表明零-shot列表式重新排序器优于点式重新排序器。目标是根据与用户查询相关性对候选文档列表进行重新排序。提示设计类似于RankGPT,但考虑到Vicuna和GPT之间的差异。用于训练的模型RankVicuna是在RankGPT3.5生成的排序列表上进行训练的。采取了额外的步骤以确保更高质量和更稳健的训练模型。训练过程包括两个epoch,有效批量大小为128,学习率为2 × 10−5(bfloat16)。初始权重使用的Vicuna模型是HuggingFace Hub中的lmsys/vicuna-7b-v1.5。
零样本文档重排:作者使用一个开源的大型语言模型(LLM)Vicuna,通过设计一个输入提示模板,让Vicuna根据用户的查询和候选文档,生成一个按相关性降序排列的文档标识符列表。这样,作者不需要任何任务相关的监督训练数据,就可以对检索到的文档进行重排,提高搜索效果
提示设计:作者希望Vicuna能够根据提示模板,输出一个类似于[4] > [2] > [1] > [3] > [5]的排序结果,表示第4个文档最相关,第5个文档最不相关。
蒸馏训练:作者使用RankGPT3.5作为教师模型,对Vicuna进行蒸馏训练。RankGPT3.5是一个使用GPT3.5作为基础模型的零样本文档重排方法,它也使用了类似的输入提示模板。作者使用了10万个从MS MARCO v1数据集中随机采样的查询,以及每个查询对应的用BM25检索到的20个候选文档。然后,作者用RankGPT3.5对这些候选文档进行重排,并将其输出作为Vicuna的训练目标。作者还使用了一些数据增强技术,比如打乱输入顺序和变换输出顺序,来提高Vicuna的泛化能力和鲁棒性。
结果:
a. 详细的实验设置:
RankVicuna的有效性与现有的无监督排序方法(BM25和Contriever)以及其他提示解码模型(LRL with GPT3.5,RankGPT with GPT3.5和GPT4,以及PRP-Sliding-10 with Vicuna)进行了比较。使用TREC 2019和2020 Deep Learning Tracks的测试集进行评估,使用来自段落检索任务的查询和相关性判断。使用的数据集是DL19和DL20,其中包含来自MS MARCO v1段落语料库的880万个段落。使用的评估指标是nDCG@10和MAP@100。Vicuna和GPT3.5的上下文大小为4096,而GPT4的上下文大小为8192。使用滑动窗口方法对每个查询的前100个候选文档进行重新排序。
b. 详细的实验结果:
RankVicuna具有7B参数,在有效性方面与RankGPT3.5相当,优于基线方法(BM25和Contriever)。结果表明,所有LLM重新排序器都优于基线方法。