Complex Claim Verification with Evidence Retrieved in the Wild

论文简要 :
本研究提出了一种全自动的流程,通过从网络中检索原始证据来验证现实世界中的主张,实验结果表明我们的流程可以提高主张的真实性判断。
背景信息:
论文背景: 自动事实核查中的证据检索是一个核心问题,但现有研究在检索方面存在简化假设,与真实世界的使用情况有所偏离。本研究旨在解决这个问题,通过从网络中检索原始证据来验证现实世界中的主张。
过去方案: 过去的研究要么没有访问证据,要么只能访问由人类事实核查员策划的证据,要么只能访问主张发表后很长时间才可用的证据。还有一些研究依赖于包含“黄金”证据的文档集,或进行无限制的检索,但这些方法都没有实现从网络中检索证据的系统。
论文的Motivation: 为了应对不断增加的虚假信息,自然语言处理领域一直在研究自动事实核查工具。然而,现有研究存在一些限制,阻碍了其在实际事实核查组织中的广泛应用。本研究旨在解决这些限制,通过从网络中检索原始证据来验证现实世界中的主张,以提高自动事实核查的效果。
方法:
a. 理论背景:
本文提出了一个完全自动化的流程,用于通过从网络中检索原始证据来事实核查现实世界的主张。该流程包括五个组成部分:主张分解、原始文档检索、细粒度证据检索、主张聚焦摘要和真实性判断。作者对复杂的政治主张进行了实验,并发现他们的流程产生的聚合证据改善了真实性判断。他们还进行了人工评估,发现他们系统生成的证据摘要可靠且与回答主张的关键问题相关。本文强调了现有事实核查研究的局限性,并强调了在现实环境中从网络中检索证据的重要性。作者提出了一个利用大型语言模型和子问题来检索相关文档并生成主张聚焦摘要的流程。通过自动评估和人类研究评估了流程的性能。结果表明,使用网络证据相比没有证据的事实核查可以提高性能,并且主张聚焦摘要对机器和人类在事实核查中都有帮助。文章得出结论,从野外找到足够的原始证据是构建自动事实核查系统的核心挑战。
这篇论文的模型是一个自动事实核查的系统,它可以从网上检索和总结与一个复杂的政治声明相关的证据,然后根据这些证据判断该声明的真实性。这个系统的工作流程如下:
首先,给定一个复杂的政治声明,例如“当旧金山禁止塑料袋时,你看到了去急诊室的人数激增。”
然后,使用一个大规模的语言模型(OpenAI的text-davinci-003)将这个声明分解成一系列的是非问句,例如“旧金山过去是否禁止了塑料袋?”或者“塑料袋禁令是否直接导致了急诊室人数的增加?”
接着,对于每个生成的问句,使用一个商业搜索引擎API(Bing Search API)从网上收集相关的文档。为了模拟真实的场景,我们只检索声明发表之前可用的文档,并且过滤掉来自事实核查网站的文档。
然后,对于每个检索到的文档,我们进行第二阶段的细粒度检索,以挑选出最相关的文本片段。具体来说,我们将文档分割成包含k1个单词的文本片段,并使用BM-25算法选择得分最高的前K1个文本片段。然后,我们对每个文本片段进行±k2个单词的上下文扩展。如果两个文本片段有重叠,我们将它们合并成一个更大的片段。这个过程产生了一组按照最高得分文本片段排序的文档,并且我们选择前K2个文档。
接下来,我们使用最先进的语言模型(text-davinci-003)对每个检索到的文档单独生成一个与声明相关的摘要。这样的单文档摘要已经被证明在新闻文章上表现良好(Goyal et al., 2022; Zhang et al., 2023)。我们使用两种类型的提示来生成摘要:一种是零样本提示,即指示模型不要对给定文档的立场做出任何判断;另一种是少样本提示,即选择四篇文档并仔细编写期望的摘要。对于与声明无关的文档,我们将其期望输出写为“该文档与核查声明无关”。
最后,我们训练一个DeBERTa-large(He et al., 2020)模型来根据前一阶段生成的摘要进行六分类真实性判断(真、基本真、半真、勉强真、假、着火假)。我们将声明和摘要拼接起来作为分类器的输入,而输出是六个标签之一。我们使用CLS标记上的分类头并用交叉熵损失进行训练。
结果:
a. 详细的实验设置:
实验设置使用了CLAIMDECOMP数据集的数据,该数据集包含来自PolitiFact的1,200个复杂主张。数据集被分为训练集、开发集和测试集。每个主张都被标记为六个真实性标签之一,并由专家事实核查员撰写了一个证明段落。设置了第二阶段检索和真实性分类器的超参数,并使用准确率、平均绝对误差、宏F1和软准确率作为评估指标。