欢迎光临散文网 会员登陆 & 注册

NLP经典论文推荐:baseline paper(文本分类)

2022-01-20 18:56 作者:深度之眼官方账号  | 我要投稿




Word2Vec词向量扛鼎之作


期刊日期

ICLR2013


论文名称

Efficient Estimation of Word Representation in Vector Space


描述

提出两个新颖的模型来计算词的连续向量表示,这些表示的质量用词的相似度来计算,结果和其他表现最好的技术进行比较。我们发现有很大的提高而且计算量低,比如1.6百万的词只需要不到一天的计算,而且这些向量对于语义和语法的相似度的计算获得最好的成绩。


论文链接

https://arxiv.org/pdf/1301.3781v3.pdf


关注公众号后台回复“Word2Vec”,领取资料。




Glove最出名的词向量训练方法之一


期刊日期

EMNLP2014


论文名称

GloVe: Global Vectors for Word Representation


描述

学习词的向量空间表示可以很好捕获语法和语义规则信息,但是这些规则的起源并不透明。我们分析和阐明模型需要的这些规则。这是logbilinear regression模型,集合了全局矩阵分解和本地窗口大小的方法。模型训练在词和词的共现矩阵中,而不是整个语料库的稀疏矩阵。


论文链接

http://emnlp2014.org/papers/pdf/EMNLP2014162.pdf



Char Embedding第一篇介绍字符嵌入的论文

期刊日期

EMNLP2015


论文名称

Compositional character models for open vocabulary word representation


描述

我们引入了一种通过使用双向 LSTM 组合字符来构建单词向量表示的模型。相对于每个词类型都有独立向量的传统词表示模型,我们的模型只需要每个字符类型一个向量和一组固定的组合模型参数。尽管这个模型很紧凑,更重要的是,语言中形式-功能关系的任意性,我们的“组合”词表示在语言建模和词性标注方面产生了最先进的结果。在形态丰富的语言(例如土耳其语)中,优于传统基线的优势尤为明显。


论文链接

https://arxiv.org/pdf/1508.02096.pdf


代码:

https://github.com/wlin12/JNN




TextCNN第一篇CNN用于文本分类的文章


期刊日期

EMNLP2014


论文名称

Convolutional Neural Network for Sentence Classification


描述

本文报告了在预训练词向量之上训练的卷积神经网络 (CNN) 的一系列实验,用于句子级分类任务。我们表明,具有很少超参数调整和静态向量的简单 CNN 在多个基准测试中取得了出色的结果。通过微调学习特定于任务的向量可进一步提高性能。我们还建议对架构进行简单的修改,以允许使用特定于任务的向量和静态向量。此处讨论的 CNN 模型在 7 个任务中的 4 个任务上改进了现有技术,其中包括情感分析和问题分类。


论文链接

https://arxiv.org/pdf/1408.5882.pdf




CharTextCNN第一篇字符级别文本分类模型


期刊日期

NIPS2015


论文名称

Character-level Convolutional Networks for Text Classification


描述

一方面目前文本分类技术主要考虑词或词的组合;另一方面,研究表明,卷积神经网络在从原始信号中抽取信息的方面,非常有用。在这篇论文中,作者将字符级的文本当做原始信号,并且使用一维的卷积神经网络来处理它。研究表明,单词嵌入表示可以直接用于卷积神经网络,而无需考虑语言的语法或语义结构。


这篇论文,仅仅使用字符,运用在卷积神经网络上。作者发现,当训练大规模数据集的时候,深度卷积神经网络并不需要单词层面的意义(包括语言的语法和语义)。这是非常激动人心的工程简化,因为不管什么语言,它都是由字符组成的,因此这对于构建跨语言的系统至关重要。还有一个好处,对于异常的字符组成(比如拼写错误)和表情符,该模型依然能够应付。


论文链接

https://proceedings.neurips.cc/paper/2015/file/250cf8b51c773f3f8dc8b4be867a9a02-Paper.pdf



FastText细粒度的文本分类


期刊日期

EACL2017


论文名称

Bag of Tricks for Efficient Text Classification


描述

本文提出了一种简单而有效的文本分类和表示学习方法。我们的实验表明,我们的快速文本分类器fastText在准确性方面通常与深度学习分类器保持一致,并且在训练和评估中速度快很多。我们可以在不到10分钟的时间内使用标准的多核CPU对超过10亿个单词进行快速文本训练,并在不到一分钟的时间内对312K类中的50万个句子进行分类。


论文链接

https://arxiv.org/pdf/1607.01759v2.pdf

代码:

https://github.com/facebookresearch/fastText




Deep_NMT使用LSTM解决机器翻译问题


期刊日期

NLPS 2014


论文名称

Sequence to Sequence Learning with Neural Networks


描述

DNN可以在有大量标记训练集下表现很好,但是无法处理用于序列映射到序列。在本文中,我们提出了一种端到端的序列训练方法,可以对序列结构做最小的假设。我们的方法使用了多层LSTM将输入序列映射成一个固定维度的向量,然后用另一个深度LSTM从向量中解码出目标序列。


论文链接

https://arxiv.org/pdf/1409.3215.pdf


公众号【学姐带你玩AI】回复LSTM 领取论文资料




Bahdanau_NMT第一篇介绍attention的论文


期刊日期

ICLR2015


论文名称

Neural Machine Translation by Jointly Learning to Align and Translate


描述

近年来,基于神经网络的机器翻译模型经常被用来处理机器翻译任务。与传统基于统计的翻译方法相比,神经机器翻译模型意在构建单个神经网络模型来提升整体翻译准确率,主要的模型架构基本都是seq2seq家族的。在本论文中,作者认为该模型的瓶颈主要在于中间转换的固定纬度大小的向量。


因此,作者提出了一种新的解码方式,其解码的源头并不仅仅包括该向量,他们希望构建一种为当前预测词从输入序列中自动搜寻相关部分的机制(soft-search,也就是注意力机制)。作者运用这种新的机制来搭建升级版的神经机器翻译模型,取得了卓越的效果,并且也通过定量分析来证明这种注意力机制的合理性。


论文链接

https://arxiv.org/abs/1409.0473




Han_Attention attention用于文本分类


期刊日期

NAACL2016


论文名称

hierarchical attention networks for document classification


描述

文本分类问题一直是自然语言处理(NLP)中一个广受人们关注的问题。可能好多刚接触深度学习做NLP的项目就是使用循环神经网络(RNN)对IMDB影评进行分类。但使用循环神经网络时一般会遇到一个问题,那就是当所要处理的序列较长时,就会导致网络容易忘记之前的东西,这在机器翻译、对话系统中会经常出现,为解决这一问题,大佬们就根据心理学原理提出了“注意力”机制,使得网络工作过程中可以像人一样将注意力放在不同部位。那么对于文本分类能否使用“注意力”机制呢?答案是肯定的,这篇论文就针对文本分类问题提出了层级注意力模型结合双向RNN实现对文本的分类,其效果明显好于其他方法。


论文链接

https://www.cc.gatech.edu/~dyang888/research.html

(代码就自己发消息问作者要吧)




SGM第一篇使用序列生成做多标签文本分类


期刊日期

Coling2018


论文名称

SGM: Sequence Generation Model for Multi-label Classification


描述

多标签分类是自然语言处理中一项重要但具有挑战性的任务。它比单标签分类更复杂,因为标签往往是相关的。现有方法倾向于忽略标签之间的相关性。此外,文本的不同部分对预测不同标签的贡献不同,这是现有模型没有考虑的。在本文中,我们建议将多标签分类任务视为序列生成问题,并应用具有新颖解码器结构的序列生成模型来解决该问题。大量的实验结果表明,我们提出的方法大大优于以前的工作。


论文链接

https://arxiv.org/abs/1806.04822

参考代码:

https://github.com/lancopku/SGM

觉得有用就点赞吧!

每天18:30分更新

关注【学姐带你玩AI】+星标+在看

不迷路看好文


NLP经典论文推荐:baseline paper(文本分类)的评论 (共 条)

分享到微博请遵守国家法律