自然语言处理文本匹配经典论文推荐
很久没有更新经典论文合集啦!学姐最近忙着给大家整理100+篇经典论文超全的文档(关注【学姐带你玩AI】公众号回复“500”即可获取)。
还有经典论文的视频讲解+代码和数据集(https://deepshare.feishu.cn/docs/doccnewbeOX1q1t4Pk5npjv0p5d)
今天给大家整理的自然语言处理经典论文——文本匹配范围内的~~一起来学习!
DSSM
第一篇深度学习领域文本匹配文章
期刊日期
CIKM 2013
论文名称
Learning Deep Structured Semantic Models for Web Search using Clickthrough Data
描述
DSSM的优势体现在三方面:
(1)直接训练搜索目标,而不是像自动编码器那些学习无监督的目标
(2)使用深度模型,能更好的提取语义特征
(3)使用word hashing,从而解决了term vector的高维问题,不像有的模型不得不通过选取最频繁的部分term使得term vector截断
论文链接
关注公众号后回复“DSSM”即可获取论文+代码+数据集
SiameseNet
利用孪生网络计算文本相似度
期刊日期
ACL 2016
论文名称
Learning Text Similarity with Siamese Recurrent Networks
描述
本文提出了一种学习变长字符序列相似性度量的深层结构。该模型将字符级双向LSTM堆栈与孪生结构相结合。它学会了只使用关于字符串对之间相似性的信息,将可变长度的字符串投影到固定维度的嵌入空间中。此模型应用于基于人工标注的分类任务。一个小的数据集被增量地扩展,并用新的数据源进行扩充。该模型学习了一种反映一对输入的语义差异的表示(例如“Java developer”和“HR manager”),但对非语义的字符串差异(例如“Java developer”与“Java programmer”)是不变的。
论文链接
关注公众号回复“500”即可获取
CompAgg
多角度提取文本特征,利用CNN进行特征融合
期刊日期
ICLR 2017
论文名称
A Compare-Aggregate Model For Matching Text Sequences
描述
NLP包括机器理解、答案选择、文本蕴含中的序列之间比较等任务。研究如何在序列之间,匹配重要单元是解决这些问题的关键。
在本文中,我们提出了一个通用的“比较聚合”框架,该框架执行单词级别的匹配,使用卷积神经网络进行聚合。本文主要研究可用于匹配两个向量的不同比较函数。我们使用四个不同的数据集来评估模型。
我们发现一些简单的基于逐元素运算的比较函数要比标准神经网络和神经张量网络表现更好。
论文链接
https://arxiv.org/pdf/1611.01747.pdf
ESIM
最流行、最常用的文本匹配模型
期刊日期
ACL 2017
论文名称
Enhanced LSTM for Natural Language Inference
描述
这篇论文认为序列推理模型并没有被好好研究,很多取得好效果的方法都是设计了很复杂的模型,所以他们提出 ESIM (Enhancing Sequential Inference Model) ,并融合了基于句法树的 tree-LSTM,能在 SNLI 上达到最佳效果(accuracy = 88.6%)。
论文链接
http://arxiv.org/abs/1609.06038
代码:
https://github.com/lukecq1231/nli
BiMPM
多视角匹配,充分挖掘文本特征,匹配精度高
期刊日期
IJCAI 2017
论文名称
Bilateral multi-perspective matching for natural language sentences
描述
自然语言句子匹配是完成各种任务的基础技术。以前的方法要么从一个方向匹配句子,要么只应用单个粒度(单词或句子)匹配。在这项工作中,我们提出了一个双边多视角匹配(BiMPM)模型。给定两个句子P和Q,我们的模型首先用BiLSTM编码器对它们进行编码。接下来,我们将两个编码后的句子在两个方向P对Q, Q对P进行匹配。在每个匹配的方向上,一个句子的每一个时间步都从多个角度匹配另一个句子的所有时间步。然后,利用另一个BiLSTM层将匹配结果聚合成固定长度的匹配向量。最后,基于匹配向量,通过全连通层进行决策。 我们从三个方面来评估我们的模型:意思识别、自然语言推理和答案句选择。在标准基准数据集上的实验结果表明,我们的模型在所有任务上都达到了最新的性能。
论文链接
https://arxiv.org/pdf/1702.03814.pdf
代码:
https://github.com/zhiguowang/BiMPM
RE2
基于更丰富特征对齐结构的简单高效文本匹配
期刊日期
acl 2019
论文名称
Simple and Effective Text Matching with Richer Alignment Features
描述
用于通用目的文本匹配的神经网络方法,一个用于用于序列间对齐方法的文本匹配模型,只需要保持三个关键特征:原始点乘特征、先前的对齐特征和上下文特征,同时简化所有剩余的组件。我模型在参数较少的所有数据集上的性能与最新水平不相上下,推理速度比同类模型快至少6倍。
论文链接
关注公众号【学姐带你玩AI】回复“500”即可获取
MatchPyramid
以图像识别的方式进行文本匹配
期刊日期
AAAI 2016
论文名称
Text Matching as Image Recognition
描述
论文的核心思想:把两条文本的匹配问题转化成一个相似性矩阵,再用图像的思想去理解矩阵,也就是用卷积去过矩阵,最终提取出特征做分类模型。这也是我认为论文很有价值的一点:借用图像的思想去解决nlp的问题。
论文链接
https://www.aaai.org/ocs/index.php/AAAI/AAAI16/paper/download/11895/12024
Poly-encoders
基于BERT预训练模型的快速准确多句评分模型
期刊日期
ICLR 2020
论文名称
Poly-encoders:Transformer Architectures and Pre-training Strategies for Fast and Accurate Multi-sentence Scoring
描述
对于句子对比较任务来说,有两种常用的途径:Cross-encoder和Bi-encoder。
Cross-encoder基于给定的输入句子和标签句子(组成一个句子对,将它们拼接在一起作为输入)进行交叉自注意,通常能获得较高的准确率,但速度较慢。
而Bi-encoder单独地对句子对中的句子进行自注意,分别得到句子编码。由于这种独立性,Bi-encoder可以对候选句子进行缓存,从而在推理时只需要计算输入句子的编码表示即可,大大加快推理速度。但是表现没有Cross-encoder好。
本文作者提出了一种新的Transformer结构,Poly-encoder,学习全局级而不是单词级的自注意特征。
Poly-encoder比Cross-encoder快,同时比Bi-encoder更准确。
同时作者证明选择与下游任务更相关的数据集进行预训练能获得较大的效果提升。
论文链接
关注公众号【学姐带你玩AI】回复“500”即可获取
MGCN
基于图形分解和卷积匹配的长文档匹配
期刊日期
ACL 2019
论文名称
Matching Article Pairs with Graphical Decomposition and Convolutions
描述
GCN在长文章匹配中的应用:概念交互图将文章表示为概念图,通过图卷积网络对匹配信号进行聚合,为方便对两篇长文章的匹配评估,建立两个数据集,包含各种主题。
论文链接
https://www.aclweb.org/anthology/P19-1632.pdf
SemBERT
使用BERT融合上下文语义信息实现文本匹配的模型
期刊日期
AAAI 2020
论文名称
Semantics-aware BERT for Language Understanding
描述
现存的语言表示模型如ELMo、GPT、BERT仅发掘了context-sensitive features即对上下文敏感的特征,如character embedding或word embedding。它们很少考虑结构化的语义信息,而这种语义信息可以为语言表示提供丰富的语义内容。
因此本文结合了来自预训练语义角色标注(pre-trained semantic role labeling,SRL)的显式上下文语义(contextual semantic),提出了一种改良的语言表示模型——SemBERT。它在保持了BERT原有的易用性的同时,能够直接为BERT融合上下文语义信息。SemBERT在10项阅读理解和语言推断任务上取得了SOTA成绩。
论文链接
https://arxiv.org/pdf/1909.02209v2.pdf
本文部分内容来源于网络,如有侵权请联系删除