通过生成式预训练来提高语言理解


摘要:
自然语言理解包括广泛的不同任务,如文本蕴含、问答、语义相似度评估和文档分类等。尽管大量未标记的文本语料库丰富多样,但用于学习这些特定任务的标记数据很少,使得歧视性训练的模型难以达到足够的性能。我们证明,通过在各种未标记文本语料库上进行语言模型的生成式预训练,然后对每个具体任务进行区分性微调,可以实现在这些任务上的大幅增益。与以往的方法不同,我们在微调过程中利用任务感知的输入转换来实现有效的迁移,同时需要最少量的模型架构更改。我们在自然语言理解的广泛基准测试中展示了我们方法的有效性。我们的通用任务不可知模型优于针对每个任务专门设计的架构的歧视性训练模型,在研究的12个任务中,有9个任务的技术水平都有显著提高。例如,在常识推理(Stories Cloze Test)上实现了8.9%的绝对改善,在问答(RACE)上实现了5.7%的绝对改善,在文本蕴含(MultiNLI)上实现了1.5%的绝对改善。
1.介绍:
从原始文本中有效地学习是减轻自然语言处理(NLP)中依赖监督学习的重要能力。大多数深度学习方法需要大量手动标记的数据,这限制了它们在许多领域的适用性,这些领域缺乏注释资源[61]。在这些情况下,能够利用未标记数据中的语言信息的模型为收集更多注释提供了一种有价值的替代方案,而这可能是耗时且昂贵的。此外,在有相当监督的情况下,以无监督的方式学习良好的表示方法可以显著提高性能。目前最令人信服的证据是广泛使用预先训练的单词嵌入[10, 39, 42]来提高各种NLP任务的性能[8, 11, 26, 45]。然而,从未标记的文本中利用更多信息而不仅仅是单词级别信息存在两个主要挑战。首先,不清楚哪种优化目标最有效地学习对于迁移有用的文本表示。最近的研究考虑了各种目标,例如语言建模[44]、机器翻译[38]和篇章连贯性[22],每种方法在不同任务上的表现都超过了其他方法[1]。其次,在将这些学习到的表示迁移到目标任务上,没有达成一致的最有效方法。现有的技术涉及对模型架构进行任务特定的更改[43, 44]、使用复杂的学习方案[21]和添加辅助学习目标[50]的组合。这些不确定性使得难以开发有效的半监督学习方法来处理语言。
本文中,我们探讨了一种半监督的语言理解任务方法,使用了无监督的预训练和有监督的微调相结合的方式。我们的目标是学习一种通用的表示形式,能够在很少调整的情况下适应各种任务。我们假设有大量的未标注文本语料库和多个手动标注的训练数据集(目标任务)。我们的设置并不要求这些目标任务与未标注语料库处于同一个领域。我们采用了一个两阶段的训练过程。首先,我们使用无标注数据的语言建模目标来学习神经网络模型的初始参数。接着,我们使用相应的有监督目标将这些参数适应到目标任务上。
对于我们的模型架构,我们使用了Transformer[62],该模型已经在各种任务中表现出色,如机器翻译[62]、文档生成[34]和句法分析[29]。与循环网络等替代方案相比,这种模型选择为我们提供了一种更为结构化的记忆方式,用于处理文本中的长期依赖性,从而在不同任务之间实现了稳健的转移性能。在转移过程中,我们利用遍历式方法[52]导出的任务特定输入适应性,将结构化文本输入处理为一个连续的标记序列。正如我们在实验中所证明的,这些适应性使我们能够在最小程度地改变预训练模型的架构的情况下进行有效的微调。
我们评估了我们的方法在四种语言理解任务上的表现——自然语言推理、问答、语义相似性和文本分类。我们的通用任务无关模型胜过了使用针对每个任务专门设计的架构的差异性训练模型,在12个任务中有9个任务的表现显著优于目前的最佳水平。例如,我们在常识推理(Stories Cloze Test)[40]上实现了8.9%的绝对提升,在问答(RACE)[30]上实现了5.7%的提升,在文本蕴涵(MultiNLI)[66]上实现了1.5%的提升,以及在最近推出的GLUE多任务基准测试[64]上实现了5.5%的提升。我们还分析了预训练模型在四个不同设置下的零样本行为,并证明它对下游任务获得了有用的语言知识。
2.相关工作
NLP中的半监督学习 我们的工作广泛地属于自然语言处理中的半监督学习范畴。这种范式引起了相当大的兴趣,应用于诸如序列标记[24, 33, 57]或文本分类[41, 70]等任务。最早的方法使用无标记数据计算词级或短语级统计信息,然后将其用作监督模型中的特征[33]。在过去的几年中,研究人员已经证明了使用在无标记语料库上训练的词嵌入[11, 39, 42]来提高各种任务的性能的好处[8, 11, 26, 45]。然而,这些方法主要传递词级信息,而我们的目标是捕捉更高层次的语义信息。 近年来,有些方法探索了从无标记数据中学习和利用更高级别的语义信息。短语级或句子级嵌入可以使用无标记语料库进行训练,已被用于将文本编码为适合各种目标任务的向量表示[28、32、1、36、22、12、56、31]。
无监督预训练 无监督预训练是半监督学习的一种特殊情况,其目标是找到一个良好的初始化点,而不是修改监督学习目标。早期的研究探讨了在图像分类[20、49、63]和回归任务[3]中使用该技术的可能性。随后的研究[15]表明,预训练作为正则化方案,可以使深度神经网络更好地泛化。在最近的工作中,该方法已被用于帮助深度神经网络训练各种任务,如图像分类[69]、语音识别[68]、实体消歧[17]和机器翻译[48]。
与我们最接近的研究线路涉及使用语言建模目标预训练神经网络,然后在有监督的情况下微调目标任务。Dai等人[13]和Howard和Ruder[21]使用这种方法来改善文本分类。然而,尽管预训练阶段有助于捕捉一些语言信息,但他们使用LSTM模型的预测能力受限于短范围。相比之下,我们选择transformer网络可以捕捉更长的语言结构,正如我们的实验所证明的。此外,我们还展示了我们的模型在更广泛的任务上的有效性,包括自然语言推断、近义词检测和故事完成。其他方法[43、44、38]使用预先训练的语言或机器翻译模型的隐藏表示作为辅助特征,同时在目标任务上训练监督模型。这涉及每个单独的目标任务需要大量的新参数,而我们在转移时只需要对模型架构进行最小的修改。
辅助训练目标 添加辅助的无监督训练目标是半监督学习的另一种形式。Collobert和Weston的早期工作[10]使用了各种辅助NLP任务,如POS标记、分块、命名实体识别和语言建模来改善语义角色标记。最近,Rei[50]在目标任务目标中增加了辅助语言建模目标,并在序列标记任务上证明了性能的提高。我们的实验也使用了一个辅助目标,但正如我们所展示的,无监督预训练已经学习到了与目标任务相关的多个语言方面。
3.框架
我们的训练过程分为两个阶段。第一阶段是在一个大型文本语料库上学习高容量的语言模型。接下来是微调阶段,在这个阶段我们使用有标签的数据将模型调整到一个判别式任务上。
3.1 无监督预训练
给定一个无监督的标记语料库 U = {u1, . . . , un},我们使用标准的语言模型目标函数最大化以下似然函数:

其中,k是上下文窗口的大小,条件概率P使用具有参数Θ的神经网络建模。这些参数使用随机梯度下降[51]进行训练。在我们的实验中,我们使用多层Transformer解码器[34]作为语言模型,它是Transformer[62]的一种变体。该模型对输入上下文令牌应用多头自注意力操作,然后是位置感知的前馈层,以生成对目标令牌的输出分布。

其中,U = (u_k, . . . , u_1) 是token的上下文向量,n是层数,We是token的嵌入矩阵,Wp是位置嵌入矩阵。
3.2 监督微调
在使用公式1的目标函数训练模型后,我们将参数适应于有监督的目标任务。我们假设存在一个带有标签的数据集C,其中每个实例都包含一个输入令牌序列x1,…,xm和一个标签y。将输入通过我们预训练的模型,得到最后的Transformer块激活,然后将其输入具有参数Wy的线性输出层以预测y:

这使我们得到了以下的目标函数来最大化:

我们还发现将语言建模作为fine-tuning的辅助目标有助于学习,可以提高有监督模型的泛化能力,同时加速收敛。这与之前的工作[50, 43]一致,他们也观察到这种辅助目标的表现有所提高。具体而言,我们最大化以下带权重λ的目标函数:

总的来说,在微调过程中我们只需要额外的参数Wy和分隔符令牌的嵌入(在第3.3节中描述)。

图1:(左)Transformer架构和本研究中使用的训练目标。 (右)用于在不同任务上进行微调的输入转换。 我们将所有结构化输入转换为令牌序列,以便由预训练模型处理,然后进行线性+ softmax层处理。
3.3 任务特定的输入转换
对于一些任务,比如文本分类,我们可以直接按照上述方法对模型进行微调。而某些其他任务,比如问答或文本蕴含,有结构化的输入,如有序的句子对,或文档、问题和答案的三元组。由于我们的预训练模型是在连续的文本序列上进行训练的,因此我们需要对其进行一些修改才能应用于这些任务。以前的工作提出了在转移表示之上学习任务特定的架构的方法 [44]。这种方法重新引入了大量的任务特定的定制,并且不使用传递学习来学习这些额外的架构组件。相反,我们采用遍历式的方法 [52],将结构化输入转换为我们的预训练模型可以处理的有序序列。这些输入转换允许我们避免在任务之间对架构进行广泛的更改。我们在下面简要描述这些输入转换,并在图1中提供了一个可视化说明。所有转换都包括添加随机初始化的开始和结束标记(<s>,<e>)。
文本蕴含
对于蕴含任务,我们将前提p和假设h的令牌序列连接起来,并在它们之间加入一个分隔符令牌($)。
相似度
对于相似度任务,被比较的两个句子没有固定的顺序。因此,我们修改输入序列,包含两种可能的句子排序(在它们之间加上一个分隔符),并独立处理每个序列以生成两个序列表示,然后在馈送到线性输出层之前对它们进行逐元素相加。
问答和常识推理任务
对于这些任务,我们会得到一个上下文文档 z,一个问题 q 和一组可能的答案 {ak}。我们将文档上下文和问题与每个可能的答案连接起来,在其中添加一个分隔符标记,以获取 [z; q; $; ak]。这些序列中的每个都会独立地通过我们的模型进行处理,然后通过 softmax 层进行归一化,以产生可能答案的输出分布。
4.实验
4.1 设置
无监督预训练 我们使用BooksCorpus数据集 [71] 训练语言模型。它包含来自各种类型(包括冒险、奇幻和浪漫)的超过7,000本独家未发表的书籍。至关重要的是,它包含了连续的长段文本,这使得生成模型可以学习对长距离信息进行条件编码。另一个数据集1B Word Benchmark,它是ELMo [44]使用的一个类似方法,大小大致相同。

但是,该数据集在句子级别上进行了洗牌-破坏了长距离结构。我们的语言模型在这个语料库上实现了非常低的单词级困惑度,为18.4。
模型规范:我们的模型基本上遵循了原始的Transformer工作[62]。我们使用具有掩蔽自注意力头的12层解码器Transformer(768维状态和12个注意力头)进行训练。对于位置- 智能前馈网络,我们使用3072维内部状态。我们使用Adam优化方案[27],最大学习率为2.5e-4。学习率在前2000次更新时从零线性增加,并使用余弦计划调节为0。我们在64个随机抽样的、连续的512个标记序列的小批量上进行100个时期的训练。由于layernorm[2]在整个模型中被广泛使用,因此简单的权重初始化N(0,0.02)就足够了。我们使用带有40,000次合并的bytepair编码(BPE)词汇表[53],并使用残差、嵌入和注意力dropout进行正则化,丢失率为0.1。我们还采用了[37]中提出的修改版本的L2正则化,对于所有非偏置或增益权重,w = 0.01。对于激活函数,我们使用高斯误差线性单元(GELU)[18]。我们使用了学习的位置嵌入,而不是原始工作中提出的正弦版本。我们使用ftfy库2清理BooksCorpus中的原始文本,标准化一些标点符号和空格,并使用spaCy分词器。
细调详情(Fine-tuning details):除非另有说明,否则我们重复使用无监督预训练的超参数设置。我们将 0.1 的丢弃率添加到分类器中。对于大多数任务,我们使用学习速率为 6.25e-5 和批次大小为 32。我们的模型细调速度快,对大多数情况,3 个时期的训练就足够了。我们使用线性学习率衰减时间表,在 0.2% 的训练时间内进行预热。λ 设置为 0.5。
4.2 监督微调
我们在各种监督任务上进行实验,包括自然语言推断、问答、语义相似性和文本分类。其中一些任务是作为最近发布的GLUE多任务基准测试的一部分提供的,我们利用了这些任务。图1提供了所有任务和数据集的概述。
自然语言推断 自然语言推断(NLI)任务,也称为识别文本蕴涵,涉及阅读一对句子并从蕴涵、矛盾或中性中判断它们之间的关系。虽然最近有很多关注[58, 35, 44],但由于存在诸如词汇蕴涵、共指和词汇和句法歧义等各种现象,该任务仍然具有挑战性。我们在五个具有不同来源的数据集上进行评估,包括图像标题(SNLI),转录的演讲、流行小说和政府报告(MNLI),维基百科文章(QNLI),科学考试(SciTail)或新闻文章(RTE)。 表2详细介绍了我们的模型和之前最先进方法在不同NLI任务上的各种结果。我们的方法在五个数据集中的四个中明显优于基准线,在MNLI上的绝对改进高达1.5%,在SciTail上达到5%,在QNLI上达到5.8%,在SNLI上达到0.6%的先前最佳结果之上。这证明了我们的模型能够更好地推理多个句子,并处理语言歧义的方面。在RTE上,我们评估的较小数据集之一(2490个例子),我们实现了56%的准确度,低于多任务biLSTM模型报告的61.7%。鉴于我们的方法在更大的NLI数据集上的强大表现,我们的模型很可能也会受益于多任务训练,但目前我们尚未探索此问题。


问题回答和常识推理 单句和多句推理的方面,我们使用最近发布的 RACE 数据集[30],该数据集包含了来自中学和高中考试的英语文章及其相关问题。这个语料库已经被证明包含了比其他数据集(如 CNN [19] 或 SQuaD [47])更多的推理类问题,为我们的模型提供了完美的评估,因为我们的模型被训练用于处理长距离上下文。此外,我们还在 Story Cloze 测试[40]上进行了评估,该测试涉及从两个选项中选择多句故事的正确结尾。在这些任务中,我们的模型再次显著地超过了以前最好的结果,Story Cloze 上高达 8.9%,在 RACE 上总体上提高了 5.7%。这证明了我们的模型有效地处理长距离上下文的能力。
语义相似性 语义相似性(或释义检测)任务涉及预测两个句子是否在语义上等效。挑战在于识别概念的改写,理解否定和处理语法歧义。我们使用三个数据集进行此任务——Microsoft Paraphrase语料库(MRPC)[14](从新闻来源收集),Quora Question Pairs(QQP)数据集[9]和Semantic Textual Similarity基准(STS-B)[6]。我们在三个语义相似性任务中获得了最先进的结果(表4),在STS-B上实现了1个绝对增益。在QQP上的性能差距显著,与单任务BiLSTM + ELMo + Attn相比,绝对改进了4.2%。
分类 最后,我们还在两个不同的文本分类任务上进行了评估。语言可接受性语料库(CoLA)[65]包含专家对句子是否符合语法的判断,测试了训练模型的固有语言偏见。另一方面,斯坦福情感树库(SST-2)[54]是一个标准的二元分类任务。我们的模型在CoLA上获得了45.4的分数,这特别是跃升,超过了先前的最佳结果35.0,展示了我们的模型学习到的固有语言偏见。模型还在SST-2上实现了91.3%的准确率,这与最先进的结果相当。我们还在GLUE基准测试中实现了72.8的总体得分,这显著优于先前的最佳得分68.9。

总体而言,我们的方法在我们评估的12个数据集中的9个中取得了新的最先进结果,在许多情况下优于集合模型。我们的结果还表明,我们的方法适用于不同大小的数据集,从像STS-B(约5.7k个训练示例)这样的较小数据集到最大的数据集SNLI(约550k个训练示例)。
5.分析
层数对转移的影响 我们观察了将不同数量的层从无监督预训练中转移至有监督目标任务对模型性能的影响。图2(左侧)说明了我们的方法在MultiNLI和RACE上的性能随转移层数的变化。我们观察到标准结果,即转移嵌入可以提高性能,并且每个Transformer层提供了进一步的好处,对于在MultiNLI上进行全转移,性能提高了9%。这表明预训练模型中的每个层都包含解决目标任务的有用功能。

零-shot行为
我们希望更好地了解transformer的语言模型预训练为什么有效。一个假设是,潜在的生成模型学会执行我们在评估中进行的许多任务,以提高其语言建模能力,而且越结构化的任务,这种学习可能会更加有效。在这里,我们分析了零-shot设置下的这种行为。在图2(右)中,我们考虑了10个预训练更新数目,并在每个任务上记录了该任务的零-shot性能随时间的演变。

我们观察了将不同数量的层从无监督预训练中转移至有监督目标任务对性能的影响。图2(左)以转移层数的数量为函数,展示了我们的方法在MultiNLI和RACE上的性能。我们观察到转移嵌入可以提高性能,并且每个Transformer层在MultiNLI的完全转移中可以提供高达9%的额外收益。这表明预训练模型中的每一层都包含了解决目标任务的有用功能。
图2:(左)将预训练语言模型的不同数量的层转移至RACE和MultiNLI的影响。 (右)绘制不同任务的零-shot性能随LM预训练更新次数的演变情况。每个任务的性能以随机猜测基线和使用单个模型的当前最佳性能为基准进行归一化。
我们希望更好地了解transformer的语言模型预训练为什么有效。一种假设是,基础生成模型学习执行我们评估的许多任务,以提高其语言建模能力,而越结构化的transformer注意力内存相对于LSTMs会更有助于转移。我们设计了一系列启发式解决方案,利用基础生成模型执行任务,而不需要有监督的微调。我们在图2(右)中可视化了这些启发式解决方案的有效性。我们观察到这些启发式的性能稳定,并随着预训练的进行而稳步提高,表明生成预训练支持学习各种任务相关的功能。我们还观察到LSTM的零-shot性能方差较高,这表明Transformer体系结构的归纳偏差有助于转移。
对于语言可接受性的CoLA,示例的得分是生成模型分配的平均标记对数概率,并且通过阈值判断进行预测。对于情感分析的SST-2,我们在每个示例中添加单词“very”,并将语言模型的输出分布限制为仅包括正面和负面单词,并猜测它分配更高概率的单词为预测结果。对于问答的RACE,我们选择生成模型在给定文档和问题的条件下分配的平均标记对数概率最高的答案。对于DPRD [46](winograd schemas),我们将定冠词替换为两个可能的指代,预测生成模型在替换后剩余序列分配更高平均标记对数概率的那个指代。
消融实验 我们进行了三个不同的消融研究(表5)。首先,我们检查了在fine-tuning期间没有辅助LM目标的情况下我们方法的性能。我们观察到辅助目标在NLI任务和QQP上有帮助。总体趋势表明,辅助目标对大型数据集有益,但对小型数据集则没有。其次,我们通过将其与使用相同框架的单层2048个单元LSTM进行比较来分析Transformer的影响。我们观察到,使用LSTM而不是Transformer会导致平均得分下降5.6个百分点。LSTM仅在一个数据集(MRPC)上优于Transformer。最后,我们还直接比较了在未进行预训练的情况下,使用监督目标任务直接训练的transformer架构与我们的模型。我们观察到,缺乏预训练会损害所有任务的性能,与我们的全模型相比,性能降低了14.8%。
6.结论
我们通过生成式预训练和判别式微调提出了一个框架,通过单个任务不可知模型实现强大的自然语言理解。通过在一个包含大量连续文本的多样化语料库上进行预训练,我们的模型获得了显著的世界知识和处理长距离依赖的能力,然后成功地将其转化为解决问答、语义相似性评估、蕴含判断和文本分类等判别性任务,提高了我们研究的12个数据集中的9个数据集的最新技术水平。使用无监督(预)训练来提高判别性任务的性能长期以来一直是机器学习研究的重要目标。我们的工作表明,确实可以实现显著的性能提升,并提供了提示,指出哪些模型(Transformers)和数据集(具有长距离依赖的文本)最适合这种方法。我们希望这将有助于促进无监督学习的新研究,无论是自然语言理解还是其他领域,进一步提高我们对无监督学习如何以及何时起作用的理解。
References
[1] S. Arora, Y. Liang, and T. Ma. A simple but tough-to-beat baseline for sentence embeddings. 2016.
[2] J. L. Ba, J. R. Kiros, and G. E. Hinton. Layer normalization. arXiv preprint arXiv:1607.06450, 2016.
[3] Y. Bengio, P. Lamblin, D. Popovici, and H. Larochelle. Greedy layer-wise training of deep networks. In
Advances in neural information processing systems, pages 153–160, 2007.
[4] L. Bentivogli, P. Clark, I. Dagan, and D. Giampiccolo. The fifth pascal recognizing textual entailment
challenge. In TAC, 2009.
[5] S. R. Bowman, G. Angeli, C. Potts, and C. D. Manning. A large annotated corpus for learning natural
language inference. EMNLP, 2015.
[6] D. Cer, M. Diab, E. Agirre, I. Lopez-Gazpio, and L. Specia. Semeval-2017 task 1: Semantic textual
similarity-multilingual and cross-lingual focused evaluation. arXiv preprint arXiv:1708.00055, 2017.
[7] S. Chaturvedi, H. Peng, and D. Roth. Story comprehension for predicting what happens next. In Proceedings
of the 2017 Conference on Empirical Methods in Natural Language Processing, pages 1603–1614, 2017.
[8] D. Chen and C. Manning. A fast and accurate dependency parser using neural networks. In Proceedings
of the 2014 conference on empirical methods in natural language processing (EMNLP), pages 740–750,
2014.
[9] Z. Chen, H. Zhang, X. Zhang, and L. Zhao. Quora question pairs. https://data.quora.com/First-QuoraDataset-Release-Question-Pairs, 2018.
[10] R. Collobert and J. Weston. A unified architecture for natural language processing: Deep neural networks with multitask learning. In Proceedings of the 25th international conference on Machine learning, pages 160–167. ACM, 2008.
[11] R. Collobert, J. Weston, L. Bottou, M. Karlen, K. Kavukcuoglu, and P. Kuksa. Natural language processing
(almost) from scratch. Journal of Machine Learning Research, 12(Aug):2493–2537, 2011.
[12] A. Conneau, D. Kiela, H. Schwenk, L. Barrault, and A. Bordes. Supervised learning of universal sentence representations from natural language inference data. EMNLP, 2017.
[13] A. M. Dai and Q. V. Le. Semi-supervised sequence learning. In Advances in Neural Information Processing
Systems, pages 3079–3087, 2015.
[14] W. B. Dolan and C. Brockett. Automatically constructing a corpus of sentential paraphrases. In Proceedings
of the Third International Workshop on Paraphrasing (IWP2005), 2005.
[15] D. Erhan, Y. Bengio, A. Courville, P.-A. Manzagol, P. Vincent, and S. Bengio. Why does unsupervised pre-training help deep learning? Journal of Machine Learning Research, 11(Feb):625–660, 2010.
[16] S. Gray, A. Radford, and K. P. Diederik. Gpu kernels for block-sparse weights. 2017.
[17] Z. He, S. Liu, M. Li, M. Zhou, L. Zhang, and H. Wang. Learning entity representation for entity disambiguation. In Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers), volume 2, pages 30–34, 2013.
[18] D. Hendrycks and K. Gimpel. Bridging nonlinearities and stochastic regularizers with gaussian error linear
units. arXiv preprint arXiv:1606.08415, 2016.
[19] K. M. Hermann, T. Kocisky, E. Grefenstette, L. Espeholt, W. Kay, M. Suleyman, and P. Blunsom. Teaching
machines to read and comprehend. In Advances in Neural Information Processing Systems, pages 1693–
1701, 2015.
[20] G. E. Hinton, S. Osindero, and Y.-W. Teh. A fast learning algorithm for deep belief nets. Neural computation, 18(7):1527–1554, 2006.
[21] J. Howard and S. Ruder. Universal language model fine-tuning for text classification. Association for
Computational Linguistics (ACL), 2018.
[22] Y. Jernite, S. R. Bowman, and D. Sontag. Discourse-based objectives for fast unsupervised sentence representation learning. arXiv preprint arXiv:1705.00557, 2017.
[23] Y. Ji and J. Eisenstein. Discriminative improvements to distributional sentence similarity. In Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing, pages 891–896, 2013.
[24] F. Jiao, S. Wang, C.-H. Lee, R. Greiner, and D. Schuurmans. Semi-supervised conditional random fields
for improved sequence segmentation and labeling. In Proceedings of the 21st International Conference on
Computational Linguistics and the 44th annual meeting of the Association for Computational Linguistics,
pages 209–216. Association for Computational Linguistics, 2006.
[25] T. Khot, A. Sabharwal, and P. Clark. Scitail: A textual entailment dataset from science question answering.
In Proceedings of AAAI, 2018.
[26] Y. Kim. Convolutional neural networks for sentence classification. EMNLP, 2014.
[27] D. P. Kingma and J. Ba. Adam: A method for stochastic optimization. arXiv preprint arXiv:1412.6980,
2014.
[28] R. Kiros, Y. Zhu, R. R. Salakhutdinov, R. Zemel, R. Urtasun, A. Torralba, and S. Fidler. Skip-thought
vectors. In Advances in neural information processing systems, pages 3294–3302, 2015.
[29] N. Kitaev and D. Klein. Constituency parsing with a self-attentive encoder. ACL, 2018.
[30] G. Lai, Q. Xie, H. Liu, Y. Yang, and E. Hovy. Race: Large-scale reading comprehension dataset from
examinations. EMNLP, 2017.
[31] G. Lample, L. Denoyer, and M. Ranzato. Unsupervised machine translation using monolingual corpora
only. ICLR, 2018.
[32] Q. Le and T. Mikolov. Distributed representations of sentences and documents. In International Conference
on Machine Learning, pages 1188–1196, 2014.
[33] P. Liang. Semi-supervised learning for natural language. PhD thesis, Massachusetts Institute of Technology,
2005.
[34] P. J. Liu, M. Saleh, E. Pot, B. Goodrich, R. Sepassi, L. Kaiser, and N. Shazeer. Generating wikipedia by
summarizing long sequences. ICLR, 2018.
[35] X. Liu, K. Duh, and J. Gao. Stochastic answer networks for natural language inference. arXiv preprint
arXiv:1804.07888, 2018.
[36] L. Logeswaran and H. Lee. An efficient framework for learning sentence representations. ICLR, 2018.
[37] I. Loshchilov and F. Hutter. Fixing weight decay regularization in adam. arXiv preprint arXiv:1711.05101,
2017.
[38] B. McCann, J. Bradbury, C. Xiong, and R. Socher. Learned in translation: Contextualized word vectors. In
Advances in Neural Information Processing Systems, pages 6297–6308, 2017.
[39] T. Mikolov, I. Sutskever, K. Chen, G. S. Corrado, and J. Dean. Distributed representations of words
and phrases and their compositionality. In Advances in neural information processing systems, pages
3111–3119, 2013.
[40] N. Mostafazadeh, M. Roth, A. Louis, N. Chambers, and J. Allen. Lsdsem 2017 shared task: The story cloze
test. In Proceedings of the 2nd Workshop on Linking Models of Lexical, Sentential and Discourse-level
Semantics, pages 46–51, 2017.
[41] K. Nigam, A. McCallum, and T. Mitchell. Semi-supervised text classification using em. Semi-Supervised
Learning, pages 33–56, 2006.
[42] J. Pennington, R. Socher, and C. Manning. Glove: Global vectors for word representation. In Proceedings
of the 2014 conference on empirical methods in natural language processing (EMNLP), pages 1532–1543,
2014.
[43] M. E. Peters, W. Ammar, C. Bhagavatula, and R. Power. Semi-supervised sequence tagging with bidirectional language models. ACL, 2017.
[44] M. E. Peters, M. Neumann, M. Iyyer, M. Gardner, C. Clark, K. Lee, and L. Zettlemoyer. Deep contextualized word representations. NAACL, 2018.
[45] Y. Qi, D. S. Sachan, M. Felix, S. J. Padmanabhan, and G. Neubig. When and why are pre-trained word embeddings useful for neural machine translation? NAACL, 2018.
[46] A. Rahman and V. Ng. Resolving complex cases of definite pronouns: the winograd schema challenge. In
Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and
Computational Natural Language Learning, pages 777–789. Association for Computational Linguistics,
2012.
[47] P. Rajpurkar, J. Zhang, K. Lopyrev, and P. Liang. Squad: 100,000+ questions for machine comprehension
of text. EMNLP, 2016.
[48] P. Ramachandran, P. J. Liu, and Q. V. Le. Unsupervised pretraining for sequence to sequence learning.
arXiv preprint arXiv:1611.02683, 2016.
[49] M. Ranzato, C. Poultney, S. Chopra, and Y. LeCun. Efficient learning of sparse representations with an
energy-based model. In Advances in neural information processing systems, pages 1137–1144, 2007.
[50] M. Rei. Semi-supervised multitask learning for sequence labeling. ACL, 2017.
[51] H. Robbins and S. Monro. A stochastic approximation method. The annals of mathematical statistics,
pages 400–407, 1951.
[52] T. Rocktäschel, E. Grefenstette, K. M. Hermann, T. Kocisk ˇ y, and P. Blunsom. Reasoning about entailment `
with neural attention. arXiv preprint arXiv:1509.06664, 2015.
[53] R. Sennrich, B. Haddow, and A. Birch. Neural machine translation of rare words with subword units. arXiv
preprint arXiv:1508.07909, 2015.
[54] R. Socher, A. Perelygin, J. Wu, J. Chuang, C. D. Manning, A. Ng, and C. Potts. Recursive deep models for
semantic compositionality over a sentiment treebank. In Proceedings of the 2013 conference on empirical
methods in natural language processing, pages 1631–1642, 2013.
[55] S. Srinivasan, R. Arora, and M. Riedl. A simple and effective approach to the story cloze test. arXiv
preprint arXiv:1803.05547, 2018.
[56] S. Subramanian, A. Trischler, Y. Bengio, and C. J. Pal. Learning general purpose distributed sentence
representations via large scale multi-task learning. arXiv preprint arXiv:1804.00079, 2018.
[57] J. Suzuki and H. Isozaki. Semi-supervised sequential labeling and segmentation using giga-word scale unlabeled data. Proceedings of ACL-08: HLT, pages 665–673, 2008.
[58] Y. Tay, L. A. Tuan, and S. C. Hui. A compare-propagate architecture with alignment factorization for
natural language inference. arXiv preprint arXiv:1801.00102, 2017.
[59] Y. Tay, L. A. Tuan, and S. C. Hui. Multi-range reasoning for machine comprehension. arXiv preprint
arXiv:1803.09074, 2018.
[60] J. Tian, Z. Zhou, M. Lan, and Y. Wu. Ecnu at semeval-2017 task 1: Leverage kernel-based traditional nlp
features and neural networks to build a universal model for multilingual and cross-lingual semantic textual
similarity. In Proceedings of the 11th International Workshop on Semantic Evaluation (SemEval-2017),
pages 191–197, 2017.
[61] Y. Tsvetkov. Opportunities and challenges in working with low-resource languages. CMU, 2017.
[62] A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, Ł. Kaiser, and I. Polosukhin.
Attention is all you need. In Advances in Neural Information Processing Systems, pages 6000–6010, 2017.
[63] P. Vincent, H. Larochelle, Y. Bengio, and P.-A. Manzagol. Extracting and composing robust features with
denoising autoencoders. In Proceedings of the 25th international conference on Machine learning, pages
1096–1103. ACM, 2008.
[64] A. Wang, A. Singh, J. Michael, F. Hill, O. Levy, and S. R. Bowman. Glue: A multi-task benchmark and
analysis platform for natural language understanding. arXiv preprint arXiv:1804.07461, 2018.
[65] A. Warstadt, A. Singh, and S. R. Bowman. Corpus of linguistic acceptability. http://nyu-mll.github.io/cola,
2018.
[66] A. Williams, N. Nangia, and S. R. Bowman. A broad-coverage challenge corpus for sentence understanding
through inference. NAACL, 2018.
[67] Y. Xu, J. Liu, J. Gao, Y. Shen, and X. Liu. Towards human-level machine reading comprehension: Reasoning and inference with multiple strategies. arXiv preprint arXiv:1711.04964, 2017.
[68] D. Yu, L. Deng, and G. Dahl. Roles of pre-training and fine-tuning in context-dependent dbn-hmms for
real-world speech recognition. In Proc. NIPS Workshop on Deep Learning and Unsupervised Feature
Learning, 2010.
[69] R. Zhang, P. Isola, and A. A. Efros. Split-brain autoencoders: Unsupervised learning by cross-channel
prediction. In CVPR, volume 1, page 6, 2017.
[70] X. Zhu. Semi-supervised learning literature survey. 2005.
[71] Y. Zhu, R. Kiros, R. Zemel, R. Salakhutdinov, R. Urtasun, A. Torralba, and S. Fidler. Aligning books and movies: Towards story-like visual explanations by watching movies and reading books. In Proceedings of the IEEE international conference on computer vision, pages 19–27, 2015.