FACTKG: Fact Verification via Reasoning on Knowledge Graphs
Motivation 为了推动基于知识图谱的事实验证领域的发展,提供一个新的、高质量的、多样化的数据集,以及一个强大的基线模型。作者认为,这样可以促进事实验证模型的研究和应用,以及知识图谱的构建和完善。
FACTKG数据集:一个新的基于知识图谱的事实验证数据集,包含108k个自然语言的断言,可以根据DBpedia来判断其真假。断言分为五种推理类型:单跳、合取、存在、多跳和否定。
数据构建方法:利用WebNLG数据集中的文本-图对作为基础,通过实体替换、关系替换、模板填充等方式生成不同类型的断言。同时,还使用了语言模型和预设条件方法来转换断言的口语风格。
质量控制:通过双向自然语言推理和对抗性过滤等方法来保证生成断言的标签准确性和语言质量。
实验设置:使用了基于图证据的事实验证模型GEAR作为基线,并与仅使用断言作为输入的文本分类器进行了对比。结果表明,图证据对于提高事实验证的性能有积极的影响,尤其是在存在和否定类型的断言上。
数据分析:对FACTKG数据集进行了详细的统计和分析,展示了不同类型的断言在数量、长度、难度等方面的分布和特点。同时,还对断言中涉及的实体和关系进行了分析,发现数据集具有较高的多样性和覆盖率。
模型结果:对比了GEAR模型和文本分类器在FACTKG数据集上的表现,发现GEAR模型在所有类型的断言上都优于文本分类器,尤其是在合取、存在和否定类型上。此外,还分析了不同类型的断言对模型性能的影响,发现存在和否定类型是最具挑战性的。
错误分析:对GEAR模型在FACTKG数据集上的错误进行了分类和分析,发现主要有三类错误:i) 无法理解复杂的语言结构,如否定、条件等;ii) 无法处理多义性或歧义性的实体或关系;iii) 无法利用图证据进行有效的推理。
人工评估:邀请了9名研究生对FACTKG数据集中的一部分断言进行了人工验证,结果表明人类验证者的准确率为95.6%,高于GEAR模型的准确率。这说明FACTKG数据集是合理且可信的,同时也为事实验证模型提供了提升空间。

这个部分是论文中介绍数据集构建的一部分,主要是用来生成REFUTED类型的断言。论文中提出了两种替换方法:实体替换和关系替换。实体替换是指在一个SUPPORTED类型的断言中,用另一个相同类型但不相关的实体来替换原来的实体,从而生成一个REFUTED类型的断言。关系替换是指在一个SUPPORTED类型的断言中,用另一个可以接受相同类型实体的关系来替换原来的关系,从而生成一个REFUTED类型的断言。论文中还给出了这两种替换方法的具体流程和例子。
实体替换:对于一个SUPPORTED类型的断言“巴黎是法国的首都”,可以用另一个相同类型但不相关的实体来替换原来的实体,从而生成一个REFUTED类型的断言“北京是法国的首都”。这个过程中,需要先找到一个相同类型但不相关的实体,然后将其替换原来的实体,并根据DBpedia判断新生成的断言是否为真。
关系替换:对于一个SUPPORTED类型的断言“巴黎是法国的首都”,可以用另一个可以接受相同类型实体的关系来替换原来的关系,从而生成一个REFUTED类型的断言“巴黎是法国的港口城市”。这个过程中,需要先找到一个可以接受相同类型实体的关系,然后将其替换原来的关系,并根据DBpedia判断新生成的断言是否为真。

这篇论文使用了GEAR模型作为基线,它是一个基于图证据的事实验证模型,由两个部分组成:子图检索和断言验证。子图检索部分使用两个独立的BERT模型来预测给定实体和断言相关的关系和跳数,然后根据预测结果在知识图谱中检索子图作为证据。断言验证部分使用一个Transformer编码器来编码断言和证据,然后使用一个注意力机制来计算断言和证据之间的相关性,最后使用一个全连接层来输出断言的真假标签。
首先,子图检索部分会根据给定的实体和断言,预测它们之间的关系和跳数(第一个BERT模型用于预测给定实体和断言之间的关系,第二个BERT模型用于预测它们之间的跳数)。例如,如果给定的实体是“巴黎”、断言是“巴黎是法国的首都”,那么子图检索部分会预测“巴黎”和“法国”之间的关系是“首都”,跳数是“1”。然后,子图检索部分会在知识图谱中检索包含这个关系和跳数的子图作为证据。例如,在这个例子中,子图检索部分会在知识图谱中找到包含“巴黎”、“法国”和“首都”的子图作为证据。最后,断言验证部分会使用Transformer编码器来编码断言和证据,计算它们之间的相关性,并输出断言的真假标签。