再读一遍: 基于证据再访的忠实可解释事实验证
Title: Read it Twice: Towards Faithfully Interpretable Fact Verification by Revisiting Evidence (再读一遍: 基于证据再访的忠实可解释事实验证)

方法:
a. 理论背景:
本文介绍了一种名为ReRead的新方法,用于事实验证,该方法检索支持或反驳主张的证据。现有方法依赖启发式方法,无法提供既忠实又可信的证据,从而影响了事实验证任务的准确性。ReRead通过训练一个证据检索器来获取基于忠实性和可信度标准的可解释证据,并通过一个主张验证器重新审查证据以提高准确性来解决这个问题。该模型在真实数据集上相对于SOTA基线实现了4.31%的F1性能提升。主要的训练目标是忠实性、可信度和准确性,模型的架构包括使用标记数据对主张验证器进行微调,使用黄金证据提升可信度,并重新审查检索到的证据。
b. 技术路线:
本文提出了一个事实验证系统,旨在提高检索到的证据的忠实性和可信度。该系统包括一个句子编码器,用于获取主张和源文档中每个句子的语义嵌入,一个主张验证器,根据文档将主张分类为三个类别,以及一个证据检索器,用于选择关键证据句子。为了确保忠实性,作者使用了完整性和充分性的标准,为了鼓励可信度,他们引入了一个Top 𝑘算法,选择具有最高概率得分的句子。该系统使用一个联合损失函数进行训练,该函数包括三个损失函数:完整性、充分性和可信度。该系统有潜力提高事实验证的准确性和可解释性。
模型的工作流程如下:
首先,模型会使用证据检索器从网上搜索包含埃菲尔铁塔和其高度信息的相关文档。证据检索器会根据文档的可信度、完整性和充分性对文档进行排序,并返回前k个文档作为证据候选。
其次,模型会使用声明验证器读取证据候选,并与声明进行比较和推理。声明验证器会根据证据的支持度、反驳度和中立度对声明进行分类,并给出一个置信度分数。
最后,模型会生成一个简洁和清晰的验证结果,包括声明的真假标签、置信度分数和最有力的证据。
例如,对于“埃菲尔铁塔是巴黎最高的建筑物”这个陈述,模型可能会生成以下结果:
标签:错误
置信度:0.95
证据:埃菲尔铁塔的高度为324米,而巴黎最高的建筑物是蒙帕纳斯大楼,其高度为210米。因此,埃菲尔铁塔不是巴黎最高的建筑物。
结果:
a. 详细的实验设置:
本文开发了一个名为ReRead的事实验证工具,旨在通过重新审查文本提供忠实的证据解释。作者希望将这种方法应用于结构化知识提取和问答。ReRead的有效性在真实数据集上得到了证明。该工作得到了中国国家重点研发计划和中国国家自然科学基金的多个组织的支持。作者在GitHub上提供了他们的代码。文章包括一个参考文献列表,涵盖了自动事实检查的各个方面,如基准数据集、关系提取和机器学习优化技术。
基于证据的事实验证的挑战:事实验证是一个复杂的任务,需要从大量的文本中检索相关的证据,然后根据证据对声明进行推理和判断。这个过程涉及到多个子任务,如信息检索、自然语言理解、逻辑推理等,每个子任务都有自己的难点和挑战 。
基于证据的事实验证的研究现状:目前,基于证据的事实验证的研究主要分为两类:端到端的方法和分步骤的方法。端到端的方法是指直接从原始文本中预测声明的真假,不需要显示地提供证据 。分步骤的方法是指将事实验证分解为两个或多个子任务,如证据检索、声明验证等,然后分别对每个子任务进行建模和优化 。
基于证据的事实验证的评估指标:评估基于证据的事实验证的性能,通常需要考虑两方面的指标:验证器的准确性和检索器的质量。验证器的准确性是指验证器对声明真假的判断是否正确,常用的指标有准确率、召回率、F1值等。检索器的质量是指检索器提供的证据是否与人类标注的金标准证据一致,常用的指标有BLEU、ROUGE、METEOR等。
基于证据的事实验证的数据集:目前,已经有一些公开可用的基于证据的事实验证数据集,如FEVER、LIAR、FakeNewsNet、RumorEval、CHEF等。这些数据集涵盖了不同的领域、语言和媒体类型,为事实验证提供了丰富而多样化的资源。然而,这些数据集也存在一些局限性,如规模较小、噪声较多、缺乏多样性等。
基于证据的事实验证的未来方向:未来,基于证据的事实验证还有很多值得探索和改进的方面,如以下几点:
多源融合:利用来自不同来源和类型的信息,如文本、图像、视频、音频等,提高事实验证的可信度和鲁棒性。
多语言适应:开发跨语言和多语言的事实验证模型,适应不同语言环境和用户需求。
可解释性增强:提高事实验证模型的可解释性和可理解性,使其能够生成清晰和合理的推理过程和解释说明。
社会影响评估:考虑事实验证对社会和个人产生的影响和后果,如传播速度、情感态度、信任程度等 。