NLP经典论文推荐:baseline paper(文本分类)

Word2Vec词向量扛鼎之作
期刊日期
ICLR2013
论文名称
Efficient Estimation of Word Representation in Vector Space
描述
提出两个新颖的模型来计算词的连续向量表示,这些表示的质量用词的相似度来计算,结果和其他表现最好的技术进行比较。我们发现有很大的提高而且计算量低,比如1.6百万的词只需要不到一天的计算,而且这些向量对于语义和语法的相似度的计算获得最好的成绩。
论文链接
https://arxiv.org/pdf/1301.3781v3.pdf
关注公众号后台回复“Word2Vec”,领取资料。
Glove最出名的词向量训练方法之一
期刊日期
EMNLP2014
论文名称
GloVe: Global Vectors for Word Representation
描述
学习词的向量空间表示可以很好捕获语法和语义规则信息,但是这些规则的起源并不透明。我们分析和阐明模型需要的这些规则。这是logbilinear regression模型,集合了全局矩阵分解和本地窗口大小的方法。模型训练在词和词的共现矩阵中,而不是整个语料库的稀疏矩阵。
论文链接
http://emnlp2014.org/papers/pdf/EMNLP2014162.pdf
Char Embedding第一篇介绍字符嵌入的论文
期刊日期
EMNLP2015
论文名称
Compositional character models for open vocabulary word representation
描述
我们引入了一种通过使用双向 LSTM 组合字符来构建单词向量表示的模型。相对于每个词类型都有独立向量的传统词表示模型,我们的模型只需要每个字符类型一个向量和一组固定的组合模型参数。尽管这个模型很紧凑,更重要的是,语言中形式-功能关系的任意性,我们的“组合”词表示在语言建模和词性标注方面产生了最先进的结果。在形态丰富的语言(例如土耳其语)中,优于传统基线的优势尤为明显。
论文链接
https://arxiv.org/pdf/1508.02096.pdf
代码:
https://github.com/wlin12/JNN
TextCNN第一篇CNN用于文本分类的文章
期刊日期
EMNLP2014
论文名称
Convolutional Neural Network for Sentence Classification
描述
本文报告了在预训练词向量之上训练的卷积神经网络 (CNN) 的一系列实验,用于句子级分类任务。我们表明,具有很少超参数调整和静态向量的简单 CNN 在多个基准测试中取得了出色的结果。通过微调学习特定于任务的向量可进一步提高性能。我们还建议对架构进行简单的修改,以允许使用特定于任务的向量和静态向量。此处讨论的 CNN 模型在 7 个任务中的 4 个任务上改进了现有技术,其中包括情感分析和问题分类。
论文链接
https://arxiv.org/pdf/1408.5882.pdf
CharTextCNN第一篇字符级别文本分类模型
期刊日期
NIPS2015
论文名称
Character-level Convolutional Networks for Text Classification
描述
一方面目前文本分类技术主要考虑词或词的组合;另一方面,研究表明,卷积神经网络在从原始信号中抽取信息的方面,非常有用。在这篇论文中,作者将字符级的文本当做原始信号,并且使用一维的卷积神经网络来处理它。研究表明,单词嵌入表示可以直接用于卷积神经网络,而无需考虑语言的语法或语义结构。
这篇论文,仅仅使用字符,运用在卷积神经网络上。作者发现,当训练大规模数据集的时候,深度卷积神经网络并不需要单词层面的意义(包括语言的语法和语义)。这是非常激动人心的工程简化,因为不管什么语言,它都是由字符组成的,因此这对于构建跨语言的系统至关重要。还有一个好处,对于异常的字符组成(比如拼写错误)和表情符,该模型依然能够应付。
论文链接
https://proceedings.neurips.cc/paper/2015/file/250cf8b51c773f3f8dc8b4be867a9a02-Paper.pdf
FastText细粒度的文本分类
期刊日期
EACL2017
论文名称
Bag of Tricks for Efficient Text Classification
描述
本文提出了一种简单而有效的文本分类和表示学习方法。我们的实验表明,我们的快速文本分类器fastText在准确性方面通常与深度学习分类器保持一致,并且在训练和评估中速度快很多。我们可以在不到10分钟的时间内使用标准的多核CPU对超过10亿个单词进行快速文本训练,并在不到一分钟的时间内对312K类中的50万个句子进行分类。
论文链接
https://arxiv.org/pdf/1607.01759v2.pdf
代码:
https://github.com/facebookresearch/fastText
Deep_NMT使用LSTM解决机器翻译问题
期刊日期
NLPS 2014
论文名称
Sequence to Sequence Learning with Neural Networks
描述
DNN可以在有大量标记训练集下表现很好,但是无法处理用于序列映射到序列。在本文中,我们提出了一种端到端的序列训练方法,可以对序列结构做最小的假设。我们的方法使用了多层LSTM将输入序列映射成一个固定维度的向量,然后用另一个深度LSTM从向量中解码出目标序列。
论文链接
https://arxiv.org/pdf/1409.3215.pdf
公众号【学姐带你玩AI】回复LSTM 领取论文资料
Bahdanau_NMT第一篇介绍attention的论文
期刊日期
ICLR2015
论文名称
Neural Machine Translation by Jointly Learning to Align and Translate
描述
近年来,基于神经网络的机器翻译模型经常被用来处理机器翻译任务。与传统基于统计的翻译方法相比,神经机器翻译模型意在构建单个神经网络模型来提升整体翻译准确率,主要的模型架构基本都是seq2seq家族的。在本论文中,作者认为该模型的瓶颈主要在于中间转换的固定纬度大小的向量。
因此,作者提出了一种新的解码方式,其解码的源头并不仅仅包括该向量,他们希望构建一种为当前预测词从输入序列中自动搜寻相关部分的机制(soft-search,也就是注意力机制)。作者运用这种新的机制来搭建升级版的神经机器翻译模型,取得了卓越的效果,并且也通过定量分析来证明这种注意力机制的合理性。
论文链接
https://arxiv.org/abs/1409.0473
Han_Attention attention用于文本分类
期刊日期
NAACL2016
论文名称
hierarchical attention networks for document classification
描述
文本分类问题一直是自然语言处理(NLP)中一个广受人们关注的问题。可能好多刚接触深度学习做NLP的项目就是使用循环神经网络(RNN)对IMDB影评进行分类。但使用循环神经网络时一般会遇到一个问题,那就是当所要处理的序列较长时,就会导致网络容易忘记之前的东西,这在机器翻译、对话系统中会经常出现,为解决这一问题,大佬们就根据心理学原理提出了“注意力”机制,使得网络工作过程中可以像人一样将注意力放在不同部位。那么对于文本分类能否使用“注意力”机制呢?答案是肯定的,这篇论文就针对文本分类问题提出了层级注意力模型结合双向RNN实现对文本的分类,其效果明显好于其他方法。
论文链接
https://www.cc.gatech.edu/~dyang888/research.html
(代码就自己发消息问作者要吧)
SGM第一篇使用序列生成做多标签文本分类
期刊日期
Coling2018
论文名称
SGM: Sequence Generation Model for Multi-label Classification
描述
多标签分类是自然语言处理中一项重要但具有挑战性的任务。它比单标签分类更复杂,因为标签往往是相关的。现有方法倾向于忽略标签之间的相关性。此外,文本的不同部分对预测不同标签的贡献不同,这是现有模型没有考虑的。在本文中,我们建议将多标签分类任务视为序列生成问题,并应用具有新颖解码器结构的序列生成模型来解决该问题。大量的实验结果表明,我们提出的方法大大优于以前的工作。
论文链接
https://arxiv.org/abs/1806.04822
参考代码:
https://github.com/lancopku/SGM

觉得有用就点赞吧!
每天18:30分更新
关注【学姐带你玩AI】+星标+在看
不迷路看好文