Converge to the Truth :Factual Error Correction via Iterative Co

论文简要 :
本文提出了一种名为VENCE的方法,通过迭代约束编辑来自动纠正可能存在的事实错误,该方法利用事实验证模型的预测真实性分数设计目标函数,并使用远程监督语言模型进行编辑位置的采样,实验证明VENCE在公共数据集上相对于之前最好的远程监督方法提高了11.8%的SARI指标。
背景信息:
论文背景: 在数字时代,通过社交媒体广泛传播的文本事实错误和误导性信息成为了一个严重的问题,因此自动纠正事实错误引起了越来越多的研究关注。
过去方案: 现有的方法要么需要大量的事实错误和修正对的配对数据进行监督训练,要么不能很好地处理跨越多个标记的错误。远程监督模型通常遵循一次掩码-纠正的范式,但存在语义漂移和监督数据不足的问题。
论文的Motivation: 为了解决现有方法的问题,本文提出了VENCE方法,将事实验证和迭代文本编辑相结合,通过迭代编辑的方式纠正错误,并利用事实验证模型提供的约束和指导。VENCE方法在每次编辑迭代中利用事实验证模型的梯度指导编辑位置的选择,并利用事实验证模型的真实性分数决定纠正建议的接受与否。通过将事实验证与迭代编辑框架相结合,VENCE方法在没有直接监督的情况下实现了事实错误修正,并在实验证明其相对于之前的方法在远程监督的事实错误修正任务上取得了最新的最佳性能。
方法:
a. 理论背景:
本文介绍了在社交媒体中传播的错误信息的事实错误修正(FEC)问题。强调了纠正事实错误的重要性,以防止误解和误导性决策。FEC的目标是通过证据来更好地支持声明,从而纠正非事实性的文本段落。本文提出了一种名为VENCE的FEC方法,它将修正问题形式化为基于目标密度函数的迭代采样编辑操作。VENCE利用事实验证模型来指导修正过程,并提高修正的准确性。本文还提到了现有远程监督模型的局限性以及FEC需要更多的训练数据的需求。
迭代约束编辑是一种基于编辑操作的事实错误修正方法,它将事实错误修正问题转化为在目标密度函数下采样编辑动作的问题。目标函数利用离线训练的事实验证模型预测的真实性分数。VENCE根据输入令牌对真实性分数的梯度反向计算出最可能的编辑位置,并使用一个远程监督的语言模型(T5)来采样编辑动作。
例如,假设我们有一个句子“我在纽约的时候去过洛杉矶”,但是实际上这个句子是错误的,因为作者从未去过洛杉矶。我们可以使用迭代约束编辑来修正这个错误。我们可以将“洛杉矶”标记为错误,并计算其令牌概率的总和。然后,我们可以使用梯度反向计算出最可能的编辑位置,并使用一个远程监督的语言模型来采样编辑动作。
远程监督是一种学习方式,它是一种将已有的知识库(比如 freebase)对应到丰富的非结构化数据中(比如新闻文本),从而生成大量的训练数据,从而训练出一个效果不错的关系抽取器。
b. 技术路线:
本文提出了一种处理多令牌实体的方法,用于实体修正。作者建议一次性屏蔽每个命名实体中的所有令牌,以保留实体的语义含义。实体被屏蔽的概率被计算为其令牌概率的总和。修正多令牌实体的负担转移到了编辑提议步骤中。
在编辑提议步骤中,作者从插入、删除和替换的均匀分布中随机采样一个操作。他们基于该操作从生成提议模型中提出一个令牌/实体。然而,由于多令牌屏蔽,采样过程中会出现挑战。为了确保马尔可夫链的可逆性,作者使用生成提议模型将实体空间和令牌空间分开。
c. 生成提议模型: 令牌 vs. 实体:
作者使用序列到序列的生成语言模型(T5)来提出多令牌修正。他们定义了两个生成任务:令牌生成和实体生成。模型以屏蔽的句子及其证据作为输入,并输出一个替代屏蔽的令牌或实体。根据修正后的令牌/实体的转换分布进行计算。
结果:
a. 详细的实验设置:
作者使用FECDATA数据集进行评估,该数据集是基于证据的事实提取和修正任务。他们使用SARI指标来衡量系统修正与基准的准确性。他们还使用ROUGE分数来评估与参考文献的信息回忆。他们将自己的方法与有监督和远程监督的基线进行比较。
b. 详细的实验结果:
1所提出的方法VENCE在大幅度上优于先前的远程监督基线,包括先前的最先进方法T5MC。VENCE的SARI最终得分为53+,ROUGE-2得分为57+。然而,有监督的方法仍然优于远程监督的方法,表明还有改进的空间。分析还显示,VENCE中使用的验证模型有助于更好的修正性能。此外,VENCE中的迭代编辑过程对SARI-Add的改进更为显著,表明VENCE中添加的单词比基线更有意义