Benchmarking the Generation of Fact Checking Explanations
论文简要 :
本研究旨在基于摘要的方法对事实核查解释进行基准测试,通过使用两个新颖数据集进行实验,发现了claim-driven extractive步骤对摘要性能的改进,并展示了在不同数据集上训练的模型能够高效地保留风格信息。
背景信息:
论文背景: 随着现代媒体生态系统与在线社交媒体的互动,新闻的快速传播变得容易,但也增加了对抗错误信息传播的需求。因此,自动化事实核查解释的生成过程对于帮助抑制错误信息至关重要。
过去方案: 过去的研究主要集中在判断声明真实性的分类上,而本文则关注生成解释(为什么将声明分类为真或假的文本解释)并通过新颖数据集和先进基线进行基准测试。
论文的Motivation: 本研究的动机在于自动化生成解释可以帮助事实核查人员提高在线活动效果,并使社交媒体用户的干预更加有效。然而,目前自动生成解释的方法仍存在问题,因此需要对不同方法进行基准测试,以找到最适合特定场景的方法。
方法:
a. 理论背景:
本文旨在自动化事实核查过程,以应对虚假新闻的增加。重点是生成理由,即对为什么一个声明被分类为真或假的文本解释。作者使用新颖的数据集和先进的基准测试了不同的总结方法。
b. 技术路线:
本文提出使用总结技术生成简单而简洁的解释,以替代社交媒体平台上的事实核查文章。研究人员探索了三种不同的无监督总结方法:文章截断、基于LexRank算法的文章相关性抽取总结和基于SBERT的基于声明的抽取总结。此外,他们还将抽取和抽象总结相结合,使用Transformer-based模型进行理由生成。他们测试了四种Transformer-based总结模型,并使用不同的解码机制生成了裁决结果。
结果:
a. 详细的实验设置:
研究人员使用了两个数据集进行实验:LIAR++和FullFact。这两个数据集包含声明、裁决和文章条目。声明是待检查的简短陈述,裁决提供了评估声明真实性的论据,文章是讨论声明真实性并包含构建裁决所需事实的文档。这些数据集具有不同的结构和风格特点。
b. 详细的实验结果:
实验结果显示,使用SBERT的基于声明的抽取总结方法在ROUGE分数方面表现最佳。将句子按照排名顺序重新排列而不是文章顺序会影响文本的连贯性。将输入与声明信息相结合会导致比仅在文章上进行微调的ROUGE分数更高。模型的性能因输入长度而异,1024输入长度的模型在LIAR++上表现更好,而512输入长度的模型在FullFact上表现更好。抽取总结通常优于无监督抽象总结。