欢迎光临散文网 会员登陆 & 注册

BERT for Evidence Retrieval and Claim Verification (BERT用于证据检索和主张

2023-08-17 20:39 作者:三月phanta  | 我要投稿
  • Title: BERT for Evidence Retrieval and Claim Verification (BERT用于证据检索和主张验证)(2019)

  • Authors: Amir Soleimani, Christof Monz, Marcel Worring

  • Affiliation: University of Amsterdam (阿姆斯特丹大学)

  • Keywords: BERT, evidence retrieval, claim verification, fact extraction, FEVER (BERT, 证据检索, 主张验证, 事实提取, FEVER)

  • URLs:https://arxiv.org/abs/1910.02655https://arxiv.org/abs/1910.02655https://arxiv.org/abs/1910.02655


  • 论文简要 :

  • 本研究使用BERT模型在FEVER事实提取和验证挑战中进行证据检索和主张验证,通过训练两个BERT模型,一个用于检索支持或反驳主张的潜在证据句子,另一个用于基于预测的证据集验证主张。通过使用点对点和成对损失函数训练BERT检索系统,并研究了硬负采样的影响,我们的系统在从包含50K个维基百科页面的FEVER文档中检索前五个句子方面实现了新的最高召回率87.1,并在FEVER得分69.7的官方排行榜中排名第二。

  • 背景信息:

  • 论文背景: 随着在线文本信息的不断增长和社交媒体的普及,虚假新闻和错误主张的传播也随之增加。手动确定这些信息的真实性是不可行的,因此需要自动验证和事实核查。由于缺乏适用于基于证据的虚假新闻检测的数据集,本研究侧重于主张验证。

  • 过去方案: FEVER事实提取和验证(FEVER)共享任务引入了一个基准,用于基于证据的主张验证。FEVER包含185K个生成的主张,标记为“支持”、“反驳”或“不足够信息”。

  • 论文的Motivation: 由于BERT预训练语言模型在各种自然语言处理任务和数据集中的出色表现,本研究探索了BERT在FEVER任务中的应用。通过使用BERT模型进行证据检索和主张验证,我们的系统在从维基百科文档中检索前五个句子方面实现了新的最高召回率,并在FEVER官方排行榜中取得了第二名的成绩。

  • 方法:

  • a. 理论背景:

    • 本文研究了在FEVER事实提取和验证挑战中使用BERT在证据检索和主张验证流水线中的应用。提出了两个BERT模型,一个用于检索潜在证据句子,另一个用于根据预测的证据集验证主张。BERT检索系统使用点对点和成对损失函数进行训练,并研究了硬负样本挖掘的效果。该系统在检索前五个句子方面实现了新的最高召回率,并在官方排行榜上以FEVER分数69.7位列第二。

  • b. 技术路线:

    • 本文提出了在FEVER任务中使用BERT进行证据检索和主张验证的三步流水线系统。包括文档检索、句子检索和主张验证。讨论了不同的方法和技术,如TF-IDF、逻辑回归以及使用ESIM等模型进行句子检索。

    • 举个例子,假设我们要验证这个断言:“罗马·阿特伍德是一名内容创作者。”

      在文档检索步骤中,我们可能会从维基百科中找到与他相关的页面,比如“wiki/Roman_Atwood”。

      在句子检索步骤中,我们可能会从这个页面中找到这样一个证据句子:“他以他的视频博客而闻名,在那里他每天更新他的生活。”

      在断言验证步骤中,我们将这个证据句子与断言进行比较,发现它们是一致的,因此给出一个“支持”的决定。

      由于没有其他反驳或支持断言的证据句子,我们将最终标签设为“支持”,并返回这个证据句子作为支持断言的依据。

  • 结果:

  • a. 详细的实验设置:

    • 本文提出的FEVER任务的系统包括三个步骤:文档检索、句子检索和主张验证。在文档检索步骤中,检索包含主张证据的维基百科文档。句子检索步骤提取主张的前五个潜在证据句子。使用点对点和成对的方法将句子分类为证据或非证据。应用硬负样本挖掘选择最具挑战性的负样本进行训练。在主张验证步骤中,将前五个潜在证据句子与主张进行比较,确定最终标签。为此步骤训练了一个新的预训练BERT模型作为三类分类器。

  • b. 详细的实验结果:

    • 表1比较了所提出的句子检索方法的不同变体在FEVER数据集上的开发集性能与最新技术结果。结果表明,点对点和成对的BERT句子检索方法都提高了召回率。UNC和DREAM的精确度得分优于没有决策阈值的提出方法,但阈值可以调节召回率和精确度之间的权衡,实现最佳精确度和F1得分。DREAM论文报告了RoBERTa和XLNet的较低召回率,可能是由于不同的训练设置。图5显示了召回率-精确度的权衡,表明点对点方法在召回率-精确度性能方面优于成对方法。HNM增强了通过Ranknet和Hinge损失函数训练的成对方法,并保持了点对点性能。

    • 在表2中,将最先进的方法的开发集结果与在不同检索证据集上训练的BERT模型进行了比较。即使在UKP-Athene句子检索组件上训练,BERT主张验证系统也提高了标签准确性和FEVER分数。基于BERT句子检索预测进行训练显著提高了验证结果,提供了更多正确的证据句子和更好的训练集。在最佳检索系统上训练的大型BERT模型显著提高了性能。

    • 最后,在表3中报告了盲测集的结果,最佳模型排名第二。这凸显了在句子检索和主张验证系统中使用预训练语言建模方法的重要性。


BERT for Evidence Retrieval and Claim Verification (BERT用于证据检索和主张的评论 (共 条)

分享到微博请遵守国家法律