多语种证据检索和事实验证以打击全球虚假信息:多语能力的力量
Title: Multilingual Evidence Retrieval and Fact Verification to Combat Global

本文研究了多语种证据检索和事实验证作为打击全球虚假信息的一种方法,旨在构建多语种系统,以检索证据丰富的语言来验证证据贫乏的常被虚假信息攻击的语言。通过构建EnmBERT事实验证系统,证明了迁移学习的能力,并提供了一个包含400个英语-罗马尼亚语混合数据集,用于跨语言迁移学习评估。
背景信息:
论文背景: 近年来,COVID-19疫情导致了虚假新闻和阴谋论的泛滥,基于证据的事实验证已被研究作为对抗虚假新闻和虚假信息的武器。然而,某些语言更具有证据丰富性,而另一些语言则更容易成为虚假信息的目标。
过去方案: 过去的研究主要关注社交媒体平台上与选举相关的虚假信息活动,以及利用预训练的语言模型进行多语种自然语言处理任务的最新进展。此外,基于事实的声明验证被构建为自然语言推理任务,通过从维基百科文档中检索证据并预测验证状态来验证声明。
论文的Motivation: 本研究的动机在于构建多语种系统,利用证据丰富的语言来验证证据贫乏的语言中的声明,以打击全球虚假信息。通过迁移学习和跨语言数据集的评估,证明了EnmBERT事实验证系统的有效性。
方法:
a. 理论背景:
本文讨论了多语言证据检索和事实验证在对抗全球虚假信息中的重要性。目标是构建多语言系统,能够在证据丰富的语言中检索证据,并将其用于验证受到虚假信息攻击但证据有限的语言中的主张。文章介绍了EnmBERT事实验证系统作为迁移学习能力的示例,并提供了一个包含400个混合英语-罗马尼亚语示例的数据集,用于跨语言迁移学习评估。
b. 技术路线:
本文提出了一个用于多语言证据检索和事实验证的流水线系统。该系统由多语言证据检索组件和多语言事实验证组件组成。使用一种特定的实体链接系统,基于命名实体识别,在不同语言中检索相关的维基百科文档。然后使用检索到的文档进行句子选择,并使用经过微调的模型进行事实验证。系统输出按照预测成功概率对证据句子-主张对进行排名。
这篇论文的模型的工作流程大致如下:
首先,作者提出了一个基于mBERT的多语言事实验证系统,称为EnmBERT,它可以在没有人工翻译的情况下,利用英语作为桥梁语言,从其他语言检索证据来验证事实。
其次,作者设计了一个由两个组件组成的系统:一个多语言证据检索组件和一个多语言事实验证组件。
多语言证据检索组件的任务是根据输入的说法,从不同语言的维基百科中检索出最相关的证据句子1。为了实现这一目标,作者使用了一个基于实体链接的文档检索方法和一个基于mBERT的句子选择模型。
多语言事实验证组件的任务是根据检索到的证据句子和说法之间的关系,给出一个三分类的标签(支持、反驳或无关)。为了实现这一目标,作者使用了一个基于mBERT的自然语言推理模型,并且根据一些逻辑规则来聚合多个证据句子的预测结果12。
最后,作者在英语-罗马尼亚语的事实验证任务上评估了EnmBERT的性能和迁移学习能力,并且提供了一个包含400个混合英语-罗马尼亚语样本的数据集,用于跨语言迁移学习评估。
结果:
a. 详细的实验设置:
通过在原始FEVER数据集上使用官方FEVER分数,将多语言事实验证系统的性能与仅英语系统进行比较。文章还评估了训练的验证模型在英语-罗马尼亚语翻译数据集上的迁移学习能力。
b. 详细的实验结果:
EnmBERT系统在公平的FEVER开发集上实现了64.62%的验证准确率(LA-3),与仅英语的基于BERT的系统的准确率相差不超过5%。它还实现了88.60%的证据召回率,比其他仅英语系统更好,但与仅英语的KGAT系统相差不超过5%。EnRomBERT系统也表现良好,在公平的开发集上达到了与仅英语FEVER-2最新准确率相差不超过5%的水平。在每类分析中,EnRomBERT在“SUPPORTS”和“REFUTES”主张的公平和强制开发集上表现优于EnmBERT。然而,未来的研究可能需要评估包括所有主张(包括NEI)在内的训练,以提高NEI类的性能。EnmBERT和EnRomBERT的迁移学习性能在混合主张-证据对上进行了评估,EnmBERT在不同语言对上优于EnRomBERT。