欢迎光临散文网 会员登陆 & 注册

GERE: Generative Evidence Retrieval for Fact Verification

2023-07-31 20:56 作者:三月phanta  | 我要投稿



Motivation 为了解决现有的事实验证方法中存在的一些问题,例如:i) 高质量的证据是事实验证的基础,但现有的方法往往采用现成的模型来检索相关文档和句子,忽略了文档和句子之间的交互和上下文信息;ii) 现有的方法需要一个大的文档索引和复杂的搜索过程,导致了巨大的内存和计算开销;iii) 现有的方法固定地选择一定数量的文档和句子作为最终的证据集合,限制了验证不同断言的灵活性。因此,作者提出了一个生成式的证据检索框架,旨在提高证据检索的质量和效率,从而改善事实验证的性能。

  • GERE:一种生成式证据检索方法。GERE是一个新颖的生成式框架,用于在事实验证(FV)中联合进行文档检索和句子检索。GERE利用一个预训练的编码器-解码器模型,生成相关文档的标题和证据句子的标识符。

  • GERE的优势。GERE相比现有的方法有以下几个优势:i) 它不需要一个大的文档索引和复杂的搜索过程,节省了内存和计算开销;ii) 它能够通过顺序生成过程捕捉文档和句子之间的依赖关系;iii) 它能够根据不同的断言动态地选择一个精确的证据集合。

  • GERE的实验结果。GERE在FEVER数据集上进行了实验,结果显示它在文档检索和句子检索方面都显著优于最先进的基线方法,同时也提高了事实验证的性能。GERE还具有更小的内存占用和更快的推理速度。


模型结构
  • 断言编码器。断言编码器是一个双向的Transformer-based编码器,用于将输入的断言映射为一个紧凑的向量,表示其主要的话题。

  • 标题解码器。标题解码器是一个顺序生成过程,用于根据断言和之前生成的标题产生一系列相关文档的标题。

  • 证据解码器。证据解码器是另一个顺序生成过程,用于根据断言和相关文档产生一系列证据句子的标识符。

首先,断言编码器将输入的断言编码为一个向量,作为标题解码器的初始状态。

然后,标题解码器根据断言和之前生成的标题,逐个生成相关文档的标题。例如,如果输入的断言是“巴黎是法国的首都”,标题解码器可能会生成“巴黎 - 维基百科”、“法国 - 维基百科”等标题。

接着,证据解码器根据断言和相关文档,逐个生成证据句子的标识符。例如,如果相关文档是“巴黎 - 维基百科”,证据解码器可能会生成“巴黎 - 维基百科#第一段#第一句”、“巴黎 - 维基百科#历史#第三段#第二句”等标识符。

最后,模型根据生成的标题和标识符,从文档库中检索出相应的文档和句子,作为最终的证据集合。



GERE: Generative Evidence Retrieval for Fact Verification的评论 (共 条)

分享到微博请遵守国家法律