Evidentiality-guided Generation for Knowledge-Intensive NLP Task

2023-08-15 22:03 作者:三月phanta 0人读过 | 我要投稿

Title: Evidentiality-guided Generation for Knowledge-Intensive NLP Tasks (基于证据性的知识密集型自然语言处理任务生成)

提出的框架概述。蓝色矩形内部的组件是基础生成器G，而证据引导生成器则位于黄色矩形内部。直线箭头表示输入输出流程，虚线箭头表示损失。

论文简要 :

本文提出了一种基于证据性的生成模型，用于解决知识密集型自然语言处理任务中生成模型忽略证据性的问题，并通过多任务学习和银标签挖掘方法取得了显著的性能提升。

背景信息:

论文背景: 知识密集型自然语言处理任务需要从大量的文本中检索相关证据，以生成正确的答案或分类标签。
过去方案: 过去的方法使用检索-生成框架，但生成模型往往忽略了检索到的证据的证据性，导致生成模型依赖于不相关的文本或产生错误的输出。
论文的Motivation: 本文的动机是解决生成模型忽略证据性的问题，通过引入证据性预测任务和银标签挖掘方法，使生成模型能够更好地关注相关证据，从而提高性能。

方法:

a. 理论背景:

本文提出了一种多任务学习框架，将证据性预测纳入生成模型的训练中。该框架由两个组件组成：基础生成模型和证据性引导生成模型。

b. 技术路线:

基础生成模型使用检索增强生成方法进行训练，首先训练一个检索模型，用于为给定查询检索相关段落。然后，生成模型根据检索到的段落生成最终输出。
为了提高生成模型根据具有正确证据的段落生成答案的能力，引入了证据性引导生成模型。该模型训练用于预测检索集中每个段落的二元证据性标签。
为了获得高质量的银标签，采用了一种任务无关的方法。训练一个证据性标注模型，用于预测一个段落是否支持黄金输出。该模型使用部分可用的黄金段落注释和通过留一生成方法收集的数据进行训练。
作者提出了一个多任务学习框架，将答案生成和证据性预测结合起来，以提高知识密集型NLP任务的性能。模型结构：

使用T5模型（Raffel et al., 2020）作为基础生成器，同时增加了一个额外的解码器用于证据性预测。证据性预测的目的是判断每个检索到的段落是否包含支持最终输出的正确证据。

使用一个基于RoBERTa模型（Liu et al., 2019）的二分类模型作为证据性标注模型，用于给每个段落分配一个证据性标签，表示该段落是否支持给定的问题和答案。

使用一种新颖的离开一法（leave-one-out）生成策略来挖掘证据性标签，即通过屏蔽某个段落来评估它对生成正确答案的重要性。作者使用这种方法来找到目标任务的金标准证据段落，并用它们来训练证据性标注模型。

使用训练好的证据性标注模型来给所有的训练数据生成银标准证据性标签，然后用它们来训练多任务生成器。

在五个数据集上进行了实验，分别涉及开放域问答、事实验证和知识增强对话三个知识密集型任务。实验结果表明，作者的方法在所有数据集上都显著优于基线模型，并在FaVIQ-Ambig、FEVER和WoW上达到了最新水平。
举个例子说明一下模型的工作流程。假设我们的目标任务是开放域问答，我们的问题是“谁是美国第一任总统？”，答案是“乔治·华盛顿”。模型会执行以下步骤：
首先，使用一个检索模块来从大规模的语料库中检索出与问题相关的段落，例如维基百科或其他网页。可以使用BM25算法或其他方法来进行检索。
然后，使用证据性标注模型来给每个检索到的段落分配一个证据性标签，表示该段落是否支持给定的问题和答案。例如，如果一个段落包含了“乔治·华盛顿是美国第一任总统”的信息，那么它就会被标记为正面证据；如果一个段落包含了“乔治·华盛顿是英国第一任总理”的信息，那么它就会被标记为负面证据；如果一个段落没有包含任何与问题和答案相关的信息，那么它就会被标记为无关证据。
接下来，使用多任务生成器来根据问题和检索到的段落生成答案和证据性预测。答案生成器会尝试生成一个简洁而准确的答案，证据性预测器会尝试预测每个段落的证据性得分，表示该段落对生成正确答案的贡献程度。
最后，使用一个后处理模块来对生成的答案和证据性预测进行优化和校验。优化的目标是使答案更加流畅和自然，校验的目标是使答案更加可靠和一致。例如，可以使用语言模型或其他方法来进行优化，可以使用事实验证或其他方法来进行校验。

结果:

a. 详细的实验设置:

作者使用额外的元数据，如黄金维基百科文章标题，来标记证据性，当在检索到的上下文中找不到黄金答案时。
该额外的元数据在大多数数据集中通常不可用，因此作者将此变体视为WoW和FaVIQ数据集的基本真实设置。
作者的方法不依赖于此额外的元数据，因此他们的变体可以达到更高的数值。
作者在LOO-gen变体中删除了留一生成策略，该策略仅包含训练证据性模型的第一步，用于自然问题。
消融结果显示，当删除多任务辅助学习时，性能明显下降，特别是在FaVIQ-A数据集上。
删除证据挖掘组件也会降低所有三个数据集的性能，表明挖掘证据性标签的重要性，而不是依赖于字符串匹配启发式方法。
作者对其方法获得的证据性标签进行了人工分析，并发现95%的挖掘正面段落提供了足够的证据来回答问题，而只有4%的负面段落没有提供足够的证据。
对基础生成模型和证据性引导生成模型的定性评估显示，后者关注更相关的段落。
作者评估了模型在FaVIQ-A和TriviaQA数据集的简单和困难子集上的性能，并发现在困难子集上两个模型之间的性能差距更大。
作者提到了关于检索增强生成和无监督证据选择的相关工作，以及改进问答的蕴涵方法。
作者总结了他们的方法在改进检索增强生成的生成器组件方面的有效性。

标签：

Evidentiality-guided Generation for Knowledge-Intensive NLP Task

论文简要 :

背景信息:

方法:

结果:

Evidentiality-guided Generation for Knowledge-Intensive NLP Task的评论 (共条)

你可能也喜欢这些文章

最新发布的文章

Evidentiality-guided Generation for Knowledge-Intensive NLP Task

论文简要 :

背景信息:

方法:

结果:

本文作者的其他文章

Evidentiality-guided Generation for Knowledge-Intensive NLP Task的评论 (共 条)

你可能也喜欢这些文章

最新发布的文章

Evidentiality-guided Generation for Knowledge-Intensive NLP Task的评论 (共条)