Investigating Zero- and Few-shot Generalization in Fact Verifica
论文简要 :
本研究探索了事实验证中的零样本和少样本泛化性能,构建了一个包含11个数据集的基准数据集集合,并通过实证分析发现当前模型的泛化性能较差。研究结果表明,数据集大小、证据长度和声明类型等因素影响泛化性能,并提出了两种改进泛化性能的方法:通过在专门领域进行预训练来引入领域知识,以及通过声明生成自动生成训练数据。这些方法能够显著提高泛化性能,但仍存在一些挑战,如灵活性、高成本和标签一致性。
背景信息:
论文背景: 随着有意的虚假信息的增加,事实验证成为了重要的自然语言处理应用。然而,由于人工标注耗时、成本高且常常存在偏见,难以在每个需要事实验证的领域收集可靠的人工标注数据。因此,需要研究如何构建一个能够适应零样本或少样本的新领域的通用事实验证系统。此外,还需要探索如何利用来自资源丰富的领域(如维基百科)的有价值的(证据,声明,标签)注释来帮助低资源领域(如学术文献和社交媒体)的事实验证。
过去方案: 过去的研究主要集中在使用大型神经模型在维基百科等资源丰富的领域上进行训练,并在FEVER数据集上取得了快速进展。然而,这些模型在其他领域的泛化性能较差。此外,虽然近年来在不同领域创建了许多事实验证数据集,但很少有研究分析这些数据集之间的泛化性能以及现有数据集对于改善新领域性能的影响。
论文的Motivation: 本研究的动机是填补这一空白,通过对事实验证中的零样本和少样本泛化性能进行全面调查。通过对迄今为止的事实验证数据集进行综合研究,我们首先精选了8个数据集,这些数据集具有人工或自然声明、人工注释的证据以及二类或三类标签。然后,我们对这些数据集进行了统一的数据格式处理,并创建了具有不同证据粒度的数据集变体,共计11个数据集。最后,我们在这11个数据集上进行了全面的泛化性能和迁移性能研究。我们在源数据集上训练模型,然后在目标数据集上评估其性能,其中目标数据集要么没有额外的目标训练样本(零样本设置),要么有少量额外的目标训练样本(少样本设置)。
方法:
a. 理论背景:
本文研究了事实验证中的零样本和少样本泛化问题,即在资源充足的领域(如维基百科)上训练模型,并将其应用于没有人工注释的低资源领域。作者构建了一个包含6个领域的11个事实验证数据集的基准数据集,并分析了这些数据集之间的泛化能力。他们发现当前的模型泛化能力不强,并确定了数据集大小、证据长度和主张类型等因素对泛化能力的影响。作者提出了两种改进泛化能力的方法:1)通过在专门领域进行预训练来引入领域知识,2)通过主张生成来自动生成训练数据。他们表明这些方法可以提高泛化能力,但也强调了灵活性、高成本和标签一致性等挑战。这项研究是首次全面研究事实验证中的泛化和迁移问题。数据集和代码已开源,供未来研究使用。
b. 技术路线:
本文使用RoBERTa-large模型作为基准模型,将主张和证据进行拼接作为分类的输入。作者提出了两种改进泛化能力的方法:一是通过在专门领域进行预训练,如生物学文献(BioBERT)和学术文档(SciBERT),以赋予模型领域内的知识;二是通过数据增强生成不同领域的训练数据,使用基于BART的主张生成模型。作者还进行了实验来评估这些方法的效果,并分析了其优缺点。
结果:
a. 详细的实验设置:
本文使用11个事实验证数据集进行实验,包括FEVER-para、FEVER-sent、VitaminC、SciFact和PubHealth等。作者使用了零样本和少样本泛化设置,并对模型在不同数据集上的性能进行评估。实验中还控制了数据集大小,并比较了不同模型的性能。
b. 详细的实验结果:
实验结果表明,当前模型在零样本泛化设置下的性能较差,与领域内性能相比有所下降。模型在人工主张和自然主张之间的泛化能力存在差异,人工主张的模型在自然主张的数据集上表现较差,而在人工主张的数据集上表现较好。此外,数据集大小对泛化能力有显著影响,较大的数据集有助于提高泛化能力。预训练和数据增强方法可以改善泛化能力,但也存在一些挑战,如灵活性、高成本和标签一致性等。

