欢迎光临散文网 会员登陆 & 注册

REALM: Retrieval-Augmented Language Model Pre-Training

2023-09-03 21:00 作者:三月phanta  | 我要投稿
  • URLs: https://arxiv.org/abs/2002.08909v1

论文简要 :

  • 本文提出了一种增强检索的语言模型预训练方法(REALM),通过引入一个学习的文本知识检索器,使语言模型能够从大规模语料库中检索和关注文档,以提高其预测能力。在开放领域问答任务上进行实验,结果表明REALM在准确性、可解释性和模块化性方面均优于现有方法。

背景信息:

  • 论文背景: 近年来,语言模型预训练方法已经显示出对世界知识的惊人捕捉能力,这对于自然语言处理任务(如问答)至关重要。然而,这种知识存储在神经网络的参数中,难以确定存储的知识内容和位置,并且网络大小受限,无法涵盖更多的世界知识。

  • 过去方案: 为了更加模块化和可解释地捕捉知识,本文提出了一种新颖的框架,即增强检索的语言模型预训练(REALM),通过引入一个学习的文本知识检索器,使语言模型能够在推理过程中检索和关注大规模语料库中的文档。以往的工作中,虽然也有将检索步骤引入神经网络的研究,但并未应用于语言模型预训练,并且使用的检索器是非学习的,无法处理大规模文档集合。

  • 论文的Motivation: 本文的动机是为了解决语言模型预训练中的知识存储和检索问题。通过引入一个学习的文本知识检索器,REALM能够更加模块化和可解释地捕捉世界知识,并且能够在推理过程中检索和关注大规模语料库中的文档,从而提高预测能力。

方法:

  • a. 理论背景:

    • 本文介绍了检索增强语言模型(Retrieval-Augmented Language Model,REALM)预训练的概念,将语言模型预训练与学习的文本知识检索器相结合。作者强调了将知识隐式存储在神经网络参数中的局限性,并提出了一种更模块化和可解释的方法。他们描述了如何使用掩码语言建模和通过检索步骤进行反向传播的无监督方式来训练检索器。作者还提到了将大规模神经检索模块纳入计算的挑战,并解释了他们如何解决这些挑战。

  • b. 技术路线:

    • REALM的方法受到了检索-预测范式的启发,并将其扩展到语言模型预训练。它与两种范式的最先进系统进行了比较。该方法将REALM的预训练和微调任务形式化为一个检索-预测生成过程。它将生成过程分解为两个步骤:检索,然后预测。它从知识语料库中检索有用的文档,并在生成输出之前对检索到的文档和原始输入进行条件编码。模型架构包括一个神经知识检索器和一个知识增强编码器。检索器使用密集内积模型来检索相关文档,而编码器在预测输出之前在输入和检索到的文档之间执行丰富的交叉注意力。训练过程涉及最大化正确输出的对数似然,并使用top-k近似来近似知识语料库中所有文档的总和。通过使用最大内积搜索(MIPS)算法来找到近似的top-k文档来解决计算挑战。MIPS索引异步刷新以保持与模型参数的一致性。

结果:

  • a. 详细的实验设置:

    • 作者在实验中使用异步刷新进行预训练,但不用于微调。为了简化,他们只构建了一次MIPS索引,并且不更新Embeddoc。

    • REALM中的检索器学习奖励改善预测准确性的检索。

    • 分析了与知识检索器参数θ相关的梯度,以了解梯度下降的单步如何改变分配给文档的相关性分数。

    • 梯度鼓励检索器通过r(z)改变分数,如果使用文档z预测正确输出的概率高于不使用z预测的概率,则r(z)为正。

    • 采用多种策略引导模型朝着有意义的检索方向发展,包括显著跨度掩码、添加空文档、禁止琐碎检索和热启动嵌入。

    • 作者使用NaturalQuestions-Open、WebQuestions和CuratedTrec等基准测试了他们的方法在Open-QA任务上的性能。

    • 他们将自己的方法与基于检索的Open-QA系统和基于生成的Open-QA系统进行了比较。

    • 使用与先前研究相同的超参数进行微调,并从2018年12月20日的英文维基百科快照中获取知识语料库。

  • b. 详细的实验结果:

    • 作者在NQ、WQ和CT三个Open-QA数据集上评估了他们的模型。

    • 他们报告了每个模型的准确性和参数数量。

    • 他们将自己的模型与具有相同微调设置、超参数和训练数据的ORQA进行了比较。

    • 作者还将自己的模型与其他基于检索的系统(如Asai等人和Min等人)进行了比较。

    • 他们表明他们的模型在性能上超过了所有先前的方法。


REALM: Retrieval-Augmented Language Model Pre-Training的评论 (共 条)

分享到微博请遵守国家法律