寻找经过事实检查的信息以减轻假新闻的传播
Title: Where Are the Facts? Searching for Fact-checked Information to Alleviate the Spread of Fake News

论文简要 :
本研究提出了一种新颖的框架,用于搜索经过事实检查的文章,以解决社交媒体上假新闻的传播问题。该框架使用文本和图像来搜索事实检查文章,并在真实数据集上取得了有希望的结果。
背景信息:
论文背景: 过去几年中,偏见新闻、党派故事、虚假言论和误导性信息的传播引起了社会的高度关注。许多报告指出,虚构的故事可能导致公民对政治候选人的错误认识,操纵股票价格,并威胁公共健康。
过去方案: 尽管学术界和工业界已经开发了许多事实检查系统,但假新闻在社交媒体上仍然猖獗。这些系统主要关注事实检查,但通常忽视了在线用户,而这些用户是误导信息传播的主要推动者。
论文的Motivation: 本研究的动机是如何利用经过事实检查的信息来提高用户对他们所接触到的假新闻的意识,并阻止用户传播假新闻。为了解决这些问题,作者提出了一种新颖的框架,用于搜索与在线用户发布的原始推文内容相关的事实检查文章。该搜索可以直接警告发布假新闻的用户和在线用户(例如发布者的关注者),阻止他们传播假新闻,并在社交媒体上扩大经过验证的内容。
方法:
a. 理论背景:
本文讨论了社交媒体上虚假新闻的泛滥问题,以及需要事实核查系统来解决这个问题。文章强调了需要关注在线用户,因为他们是误导信息传播的主要推动者。作者提出了一个新颖的框架,利用文本和图像来搜索与包含误导信息的原始推文相关的事实核查文章。该框架旨在警告发布虚假新闻的人和在线用户,阻止虚假新闻的传播,并在社交媒体上推广经过验证的内容。
b. 技术路线:
该框架首先使用文本分析技术来识别包含误导信息的原始推文。然后,它使用图像分析技术来提取与原始推文相关的图像。接下来,框架使用信息检索技术来搜索与原始推文相关的事实核查文章。最后,框架根据事实核查文章的相关性和可信度对原始推文进行评分,并向用户提供警告或推荐经过验证的内容。
MAN的工作流程如下:
首先,对于每个原始推文,使用BM25算法快速检索出50篇候选的事实核查文章。BM25是一种基于词频-逆向文件频率(TF-IDF)的检索方法,它可以根据查询和文档之间的词汇重叠程度来计算它们的相关性得分。为了提高检索效果,作者还使用了一个工具从原始推文的图像中提取出文本,并将其与原始推文的文本拼接起来作为查询。
然后,对于每个原始推文和候选文章对,MAN使用四个组件来计算它们之间的匹配得分:
Glove嵌入交互:这一方法使用余弦相似度计算原始推文和候选文章中每对单词之间的相似度,并形成一个相似度矩阵。
注意力交互矩阵:这一方法使用欧氏距离计算原始推文和候选文章中每对单词之间在ELMo嵌入空间中的不相似度,并形成一个注意力矩阵。然后,将注意力矩阵与相似度矩阵相乘,得到一个注意力交互矩阵。这一方法可以避免过分依赖于原始相似度矩阵中的原始相似度值,而是考虑到单词在不同上下文中可能有不同的含义。
ELMo嵌入交互:这一方法使用余弦相似度或双线性函数计算原始推文和候选文章中每对单词之间在ELMo嵌入空间中的相似度,并形成一个ELMo嵌入交互矩阵。这一方法可以捕捉单词在不同上下文中可能有不同含义或拼写错误时的高级相似度。
投影层:这一层将原始推文和候选文章中的每个单词映射到一个低维向量空间,分别使用Glove嵌入和ELMo嵌入。Glove嵌入是一种静态的词向量表示方法,它可以捕捉单词之间的语义相似性。ELMo嵌入是一种动态的词向量表示方法,它可以捕捉单词在不同上下文中的语义变化。这一层还将原始推文和候选文章中的每个图像映射到一个低维向量空间,使用预训练的ResNet50模型。ResNet50是一种深度卷积神经网络,它可以提取图像中的高层特征。
文本匹配层:这一层使用三种方法来衡量原始推文和候选文章之间的文本匹配程度:
图像匹配层:这一层使用余弦相似度计算原始推文和候选文章中每对图像之间的相似度,并形成一个图像相似度矩阵。然后,从这个矩阵中选取最大的相似度值作为图像匹配特征。这一方法可以捕捉原始推文和候选文章之间的图像匹配程度。
统一文本和图像信息:这一层将文本匹配层和图像匹配层的输出拼接起来,并通过几个全连接层和激活函数,得到最终的匹配得分。这一层可以将文本和图像之间的匹配信号融合起来,得到一个综合的匹配度量。
举个例子,假设我们有一个原始推文,它的文本是“Keep your promise Barack”,它的图像是一个显示“Breaking News: Obama: ‘I won’t leave if Trump is elected’”的电视截图。我们想要找到一个与这个推文相关的事实核查文章,来验证或反驳这个推文中的信息。我们可以使用BM25-TI方法检索出50篇候选文章,然后使用MAN模型对它们进行排序。MAN模型会分别计算原始推文和每篇候选文章之间的文本和图像匹配程度,并将它们结合起来得到一个最终的匹配得分。然后,MAN模型会根据匹配得分对候选文章进行排序,并返回最相关的文章作为结果。例如,MAN模型可能会返回这篇来自Snopes.com的事实核查文章,它明确地否认了原始推文中的虚假引用,并提供了证据和来源来支持它的结论。
结果:
a. 详细的实验设置:
本文使用了一个实验数据集,其中包含了大量的原始推文和相关的事实核查文章。实验中,首先对原始推文进行文本分析,使用自然语言处理技术来识别其中的误导信息。然后,使用计算机视觉技术来提取原始推文中的图像。接下来,使用信息检索技术从事实核查文章数据库中搜索相关的文章。最后,根据事实核查文章的相关性和可信度对原始推文进行评分。
b. 详细的实验结果:
实验结果显示,该框架能够准确地识别包含误导信息的原始推文,并提取与之相关的图像。通过搜索事实核查文章,框架能够找到与原始推文相关的可靠信息,并对原始推文进行评分。实验还表明,该框架能够有效地警告发布虚假新闻的人和在线用户,并推广经过验证的内容,从而减少虚假新闻的传播。