考古2020:ACL 2020 最佳主题论文
迈向NLU:关于数据时代的意义、形式和理解

简介
大型神经语言模型在许多自然语言处理任务上的成功是令人兴奋的。然而,我们发现这些成功有时会导致炒作,这些模型被描述为“理解”语言或捕捉“含义”。在这篇立场论文中,我们认为仅基于形式训练的系统先验地无法学习含义。为了符合ACL 2020年的主题“回顾我们的历程和前进方向”,我们认为清晰地理解形式和含义之间的区别将有助于引导该领域朝着更好的自然语言理解科学发展。

1 引言
目前自然语言处理领域的现状是,像BERT(Devin et al.,2019)或GPT-2(Radford et al.,2019)这样的大型神经语言模型正在广泛地取得进展,包括那些明显具有含义的任务。这导致在学术和大众出版物中声称,这些模型“理解”或“理解”自然语言或学习其“含义”。从我们的角度来看,这些都是由于对语言形式和含义之间关系的误解而引起的过度声明。
我们认为语言建模任务仅使用形式作为训练数据,原则上不能导致含义的学习。我们使用术语“语言模型”来指代仅在字符串预测任务上进行训练的任何系统,无论它是基于字符、单词或句子,是按顺序还是不按顺序操作。我们认为(语言)含义是语言形式和交际意图之间的关系。
我们的目标是倡导声明和方法论的一致性:人类类比自然语言理解(NLU)是人工智能的一个重大挑战,涉及掌握语言的结构和使用,并将其与现实世界联系起来。虽然大型神经语言模型可能最终成为人类类比NLU完整解决方案的重要组成部分,但它们并不是这一重大挑战的完美解决方案。我们在本文中认为,在任务设计和实验结果报告中保持对诸如含义和理解等大局观念的清晰认识,是我们领域真正取得进步的关键,而不仅仅是停留在当前的山坡上攀爬。
简要回顾了大型语言模型的相关论述,并总结了最近“BERTology”论文的繁荣发展(第2节)后,我们提供了“含义”的工作定义(第3节),并通过一系列思维实验说明在训练信号中没有含义的情况下学习含义是不可能的(第4、5节)。然后,我们考虑人类语言习得文献,以了解人类用于引导语言习得的信息(第6节),以及分布式语义学文献,以讨论落地分布式模型所需的信息(第7节)。第8节提出了如何看待我们领域的进步和引导研究方向的反思,第9节则针对我们的主要论点提出了可能的反驳。

2 大型语言模型:炒作与分析
在涉及大型语言模型应用于含义敏感任务的出版物中,通常使用的术语描述这些模型,如果面值解释,会产生误导。以下是一些学术导向的文章中的选段(重点加粗):
(1)为了训练一个能够理解句子关系的模型,我们预训练了一个二进制的下一句子预测任务。(Devlin et al.,2019)
(2)使用预训练语言模型BERT已经成功应用于单轮机器理解问题...(Ohsugi et al.,2019)
(3)这些模型出人意料的强大能力,能够在没有任何微调的情况下回忆出事实知识,展示了它们作为无监督开放域QA系统的潜力。(Petroni et al.,2019)
如果这些突出术语旨在描述类似于人类理解、理解或回忆事实知识的情况,则这些都是极度夸大的说法。如果它们被用作技术术语,那么它们应该被明确定义。
我们在学术论述中不谨慎使用术语的一个重要后果是,它会在大众媒体中助长人工智能的炒作。随着自然语言处理在应用环境中得到越来越广泛的使用和公众曝光,准确地描述我们系统的实际能力变得越来越重要。在某些情况下,与媒体交谈的NLP专家会适当地谨慎,就像《纽约时报》[1] 中的以下两个引用一样(第1节):
(4)这些系统距离真正理解连续的散文还有很长的路要走。(Gary Marcus)
(5)虽然BERT通过了实验室的常识测试,但机器仍然远远落后于人类常识的人工版本。(Oren Etzioni)
然而,媒体也有很多错误的报道,例如B2C网站 [2] 上的(6),显然是基于谷歌关于BERT和搜索的博客文章,其中包含许多类似于(7)的声明 [3] 。
(6)BERT是谷歌算法使用模式识别来更好地理解人类交流方式,以便为用户返回更相关的结果的系统。
(7)以下是在我们的评估过程中出现的一些示例,展示了BERT理解你的搜索意图的能力。
总之,从我们的学术文献中不清楚是否所有作者都清楚地区分了形式和含义之间的区别,但很明显,我们谈论神经语言模型的工作方式是会误导公众的。
使用不准确的语言的原因之一可能是我们尚未完全了解大型语言模型隐式代表语言的确切方式。然而,它们的成功已经引发了一个子领域(“BERTology”),旨在回答这个问题。探究任务的方法(例如:Adi et al.,2017; Ettinger et al.,2018)已经被用来展示大型语言模型至少学习了一些关于现象的信息,如英语主谓一致(Goldberg,2019;Jawahar et al.,2019),成分类型、依存标签、命名实体识别和(核心)语义角色类型(同样都是在英语中)(Tenney et al., 2019) [4] 。Hewitt和Manning(2019)发现ELMo和BERT(在英语上训练)提供的单词向量中存在与无标签依存结构类似的信息。当然,词向量的向量空间表示已经被证明可以捕捉词类,包括句法(POS, e.g.Lin et al.,2015)和语义(lexical similarity, e.g. Rubenstein and Goodenough,1965;Mikolov et al., 2013)。
其他人更仔细地研究了大型语言模型在表面上似乎与含义相关的任务上的成功,并发现实际上,它们远非执行完成任务所需的“推理”,而是比以前的方法更有效地利用了数据中的人为痕迹。Niven和Kao(2019)发现,在英语论据推理理解任务(Habernal等人,2018)中,BERT的性能非常好,但如果修改数据集以添加仅否定原始信息的对抗性示例,则性能降至随机水平,这反映了每个标签的词汇提示的分布。同样,McCoy等人(2019)发现,BERT在英语多种类型的自然语言推理数据集(Williams等人,2018)上的表现取决于其利用涉及重叠的句法启发式规则(完整成分、子序列或仅是词袋)的能力。在一个精心设计的数据集中,以阻止这种启发式规则的表现,BERT的性能显著低于随机水平。
在这篇关于BERTology论文的简要概述中,我们强调了大型语言模型可以学习语言形式结构(例如一致性、依存结构)的证据的程度,以及它们表面上“推理”的能力有时是建立在训练数据中的人为痕迹上(即形式,而非含义)。我们的贡献是从理论上论证了一个系统在训练中仅暴露于形式时,在原则上无法学习含义。
[1] https://www.nytimes.com/2018/11/18/technology/artificial-intelligence-language.html, 访问于 2019/12/04
[2] https://www.business2community.com/seo/what-to-do-about-bert-googles-recent-local-algorithm-update-02259261, 访问于 2019/12/04
[3] https://www.blog.google/products/search/search-language-understanding-bert/, 访问于 2019/12/04
[4] 请参阅Warstadt等人(2019)关于探测方法如何影响结果的警示说明。

3 什么是意义
我们首先定义两个关键术语:我们将形式定义为语言的任何可观察实现:页面上的标记,数字表示文本的像素或字节,或发音器的运动 [5] 。我们将意义定义为形式与语言外部某些东西之间的关系,我们将在下面明确说明。

3.1 意义和交际意图
当人类使用语言时,我们这样做是出于某种目的:我们不是为了移动我们的发音器而说话,而是为了实现某种交际意图。有许多类型的交际意图:它们可以是为了向对方传达一些信息;或要求他们做某事;或仅仅是社交。我们将意义定义为包含自然语言表达式 和它们可以用于引起的交际意图
的对
的关系
。鉴于这种意义定义,我们现在可以使用“理解”来指代检索给定
所得到的
的过程。
交际意图是关于语言之外的事物。当我们说“打开窗户!”或“马拉拉·优素福扎伊是什么时候出生的?”时,交际意图基于说话者和听众共同存在的现实世界。交际意图也可以涉及抽象的世界,例如银行账户、计算机文件系统或仅存在于说话者头脑中的纯粹假设的世界。
语言学家将交际意图与传统(或固定)意义(Quine,1960; Grice,1968)区分开来。一个表达式(单词、短语、句子)的传统意义是在所有可能的使用语境中都保持不变的部分。传统意义是一个抽象对象,代表了从所引用的语言系统中给定形式的交际潜力。每个语言系统(比如英语)都提供一个关系 ,其中包含表达式
和它们的传统意义
的成对 [6] 。语言语义学领域提供了许多竞争性的理论来描述传统意义
的形式。对于我们的目的,我们不需要在这些理论中做出选择;我们所假设的是传统意义必须具有解释,例如一种检验其对世界模型的真实性的手段。因此,与意义关系
一样,关系
将语言连接到语言之外的对象。
回到上面提到的意义关系 ,最好理解它是通过两个交流者共享的语言系统
的关系来中介的。说话者具有某种交际意图
,并选择一个表达式
,其具有一个传统意义
,适合在当前的交际情境中表达
。听众在听到
后,重建了
,并利用他们自己对交际情境的知识以及对说话者心理状态和意图的假设,试图推断
。
听众的主动参与对于人类交际至关重要(Reddy,1979;Clark,1996)。例如,为了理解(8)和(9)(来自Clark,1996年,第144页),听众必须计算拿破仑(Napoleon)指的是一个特定的姿势(手放在外套的翻领里)或者“中国之行”(China trip)指的是一个最近去过中国的人。
(8)The photographer asked me to do a Napoleon for the camera. 摄影师要求我在相机前摆出一种拿破仑的姿势。
(9)Never ask two China trips to the same party. 不要在同一场聚会上邀请两个刚刚去过中国的人。
正如我们将在第4节中看到的那样,我们人类也很愿意将沟通意图归因于我们所说的语言信号,即使信号的发起者不是具有沟通意图的实体。
总之,在我们努力理解NLU任务以及系统在这些任务上的表现与构建类人自然语言理解系统的大目标之间的关系时,将形式、常规含义和交际意图清晰地区分开来是很有用的。此外,我们应该小心不要混淆交际意图与世界的基本真相,因为说话者当然可能会犯错误、有意欺骗等。
我们认为,一个只通过形式训练的自然语言模型将不会学习到意义:如果训练数据只包含形式,那么就没有足够的信号来学习形式与人类语言使用者的非语言意图之间的关系 ,以及语言系统赋予每种形式的常规含义的关系
。
[5] 在口语语言中,主要的发声器官是语音道的各个组成部分。在手语中,主要是手和面部表情。
[6] 在这里,我们抽象出语言系统随时间改变以及仅在不同说话者之间部分共享的事实。它们足够稳定,可以作为沟通意图的丰富信号进行功能。

3.2 意义和智能
意义和理解长期以来一直被视为智能的关键。图灵(1950)认为,如果一个人在与机器进行任意书面对话后无法区分它与一个人交谈,那么可以说这个机器“思考”。然而,人类往往很快将意义甚至智能归于人造智能代理,即使他们知道它们是人造的,这可以通过人们对ELIZA(Weizenbaum,1966;Block,1981)产生情感联系的方式得到证明。
这意味着我们在设计机器理解的评估时必须格外小心,正如西尔(Searle,1980)在他的中文屋实验中所阐述的那样:他开发了一个“系统”的比喻,在这个系统中,一个不会说中文的人通过按照预定义规则查阅一本中文书籍库来回答中文问题。从外部来看,该系统似乎“理解”中文,但实际上系统内部并没有真正的理解发生。
西尔的思想实验是从这个前提开始的:形式可以被操纵得足够好,以至于与理解形式含义、进行推理并做出适当回应的系统无法区分。我们观察到,最近自然语言处理领域的许多工作声称正在构建系统,其中不仅运行时系统,实际上构建它的过程也只能访问形式。但是,语言是用于关于说话者实际(物理、社会和心理)世界的沟通,因此产生有意义的回应背后的推理必须将感知输入的含义连接到关于那个世界的信息。这反过来意味着,人类或机器要学习一门语言,它们必须解决哈纳德(Harnad,1990)所称的符号基础问题。哈纳德通过指出非中文使用者仅仅通过查看中文词典中的定义就无法学习中文单词的含义来概括这个问题。
我们在这里的目的是更深入地探讨为什么即使在现代硬件和扩展联结主义模型的技术背景下,仅从语言形式中无法学习到含义。我们认为,无论是否通过图灵测试都意味着系统具有智能,只依靠形式训练的系统将在足够敏感的测试中失败,因为它缺乏将其话语与世界联系起来的能力。

4 章鱼测试
为了说明仅从形式中尝试学习含义的挑战,我们提出了一个具体的场景。假设A和B都是英语流利的说话者,并分别被困在两个无人居住的小岛上。他们很快发现先前访问这些岛屿的人留下了电报设备,并且他们可以通过一条水下电缆相互通信。A和B开始愉快地互发消息。
与此同时,一只名为O的超级智能深海章鱼无法访问或观察这两个岛屿,但发现了一种方法来窃听水下电缆并听取A和B的对话。O最初对英语一无所知,但非常擅长检测统计模式。随着时间的推移,O学会了以极高的准确度预测B将如何回应A的每个话语。O还观察到某些单词倾向于在类似的语境中出现,或许学会了通过假设它们可以在某种程度上互换使用来推广词汇模式。然而,O从未观察到这些物体,因此在提供一组(物理)备选项时无法挑出一个词的指代。
某个时候,O开始感到孤独。他剪断了水下电缆,并假装成B回复A的消息来加入对话。O能够成功地冒充B而不引起A的怀疑吗?这构成了图灵测试的一种弱形式(因为A没有理由怀疑她正在与非人类交谈);有趣的问题是O是否失败了,因为他只看到了A和B话语的形式而没有学习到它们之间的意义关系。
O能够欺骗A的程度取决于任务 - 也就是A试图谈论什么。A和B花了很多时间交换有关他们日常生活琐事的笔记,以使长岛的夜晚更加愉快。O似乎能够产生类似于B的新句子,基本上像一个聊天机器人。这是因为在这种对话中,话语具有主要的社交功能,并且不需要基于对话者实际物理情况的细节或关于真实世界的任何其他具体信息。产生内部一致的文本就足够了。
现在假设A发明了一种新装置,比如说一个椰子弹弓。她兴奋地向B发送了详细的建造椰子弹弓的说明,并询问B的经验和改进建议。即使O有一种在水下构建弹弓的方法,他也不知道“绳索”和“椰子”等词语的指代,因此无法物理复制实验。他只能依赖早期观察到的有关B如何回应类似措辞的话语。也许O可以将关于芒果和钉子的话语识别为“类似措辞”,因为这些单词在上下文中与“椰子”和“绳索”出现在相似的位置。所以O决定只是简单地说“好主意,干得好!”因为当A谈论绳索和钉子时,B说了很多这样的话。A完全可以接受这个答复是有意义的,但这只是因为A所有工作都在将意义归因于O的回应。这并不是因为O理解了A的说明甚至是他自己的回答的含义。
最后,A面临一场紧急情况。她突然被一只愤怒的熊追赶。她抓起几根树枝,疯狂地请求B想出一种建造武器来保护自己。当然,O不知道A的“意思”。解决这样的任务需要准确地将单词和真实世界实体之间进行映射(以及推理和创造性思维)。如果在A没有被熊吃掉之前没有注意到欺骗,那么这就是O失败图灵测试的时刻。 [7]
只有形式可用作训练数据,O没有学习到含义。A和B交换的语言是他们的交际意图通过含义关系投射到语言形式中的结果。如果没有一种假设和测试基础交际意图的方法,仅从形式中重构交际意图是没有希望的,而且O的语言使用最终会与可以将其语言基于连贯的交际意图的代理人的语言使用产生差异。
这个思想实验还说明了第3节中关于听众在交际中积极作用的观点。当O假扮B向A发送信号时,他利用了形式中的统计规律,即他观察到的语言形式分布。O所学到的任何东西都是A和B的交际意图以及含义关系的反映。但仅仅复制这个分布是不足以进行有意义的交流的。O只是欺骗了A以为他是B,因为A是一个如此积极的听众:因为生成英语句子的代理通常具有交际意图,所以她认为O也有交际意图,因此她建立了英语所关联的常规含义与O话语之间的联系。因为她假设O是B,所以她将常规含义与她对B心态和目标的其他猜测结合起来,来归因交际意图。并不是O的话语有意义,而是A可以理解它们。
[7] 为了看看一个大型语言模型在这种情况下可能会回复什么,我们在GPT-2演示中输入了“救命!我正在被熊追赶!我只有这些树枝。我该怎么办?”,GPT-2提供了“你不会逃脱的!”(ht tps://gpt2.apps.allenai.org/,2019年12月4日访问)。遵循Radford等人(2019)的方法,即给予明确的提示来编码任务,我们还构建了一个更详细的提示。给出在附录A中,这些结果非常有趣,但对于可怜的A没有更多的帮助。

5 更具限制性的思维实验
章鱼的故事考虑了学习不仅包括关系 和
的完整交流系统,还包括需要进行推理以提出既连贯又有助于现实世界的答案的问题。在这里,我们提供了两个更具限制性的思维实验,以更狭窄地关注学习自然语言和编程语言的意义关系的问题。
因为编程语言被设计为明确且相对不敏感于执行上下文,因此与自然语言相比,固有含义和言语者含义之间的区别不那么重要。当Java程序 在Java虚拟机上编译和执行时,可以被解释为一个将程序输入映射到程序输出的函数
。我们将Java的意义关系
包含所有这样的对
。
假设我们对GitHub上发布的所有合法Java代码进行训练,我们的输入只是代码,没有字节码、编译器,也没有针对任何特定程序的样本输入和输出。我们可以使用任何类型的语言模型,训练时间也可以随意。然后,我们要求该模型执行一个示例程序,并期望输出正确的程序结果。
作为第二个例子,假设我们在英文文本上训练一个语言模型(同样是任何类型的模型),同样没有与说话者意图相关的独立指示。该系统还可以访问大量未标记的照片集合,但文本和照片之间没有任何关联。对于文本数据,训练任务纯粹是预测形式。对于图像数据,训练任务可以是任何内容,只要涉及到图像即可。在测试时,我们向模型呈现由话语和照片组成的输入,例如“How many dogs in the picture are jumping?”或“Kim saw this picture and said ‘What a cute dog!’ What is cute?”以及图1中的照片,其中适当的答案分别是数字或照片的某个区域。
Figure 1: Photo stimuli 1 (L) and 2 (R)


反思:在这两种情况下,测试都是荒谬的。考虑到模型所接受的训练内容,要求其完成这些任务似乎是非常不公平的。但这正是我们试图表明的:一个学习了编程语言的意义(语义)的系统知道如何在该语言中执行代码。而一个学习了人类语言的意义的系统可以做一些像回答有关世界中事物(或本例中的图片)的语言问题的事情。

6 人类语言习得
LMs可能在学习意义方面的一个普遍理由是认为人类儿童可以仅通过聆听来获得语言。然而,语言习得的学术研究并不支持这种说法:相反,我们发现人类语言学习不仅基于我们周围的物理世界,还基于与那个世界中其他人的互动。孩子们不会通过被动接触(例如电视或广播)学会一门语言:Snow等人(1976)顺便提到,自愿观看德国电视节目的荷兰语儿童仍然不会学会德语。Kuhl(2007)实验性地表明,学习英语的婴儿可以从与说普通话的实验者的短暂互动中学习普通话的语音差异,但不能从暴露于普通话的电视或广播中学习。
Baldwin(1995)和其他人认为,对于语言学习的关键不仅仅是互动,实际上是共同关注,即孩子和看护者同时关注同一件事,并且都意识到这一事实。这种理论观点得到了实验证据的支持,研究结果表明,照顾者“追随”孩子的注意力并为共同关注的对象提供标签的幼儿(在15个月和21个月观察到)拥有更大的词汇量(Tomasello和Farrar,1986);18至20个月大的幼儿不会接受屏幕后的人发出的标签,但会接受与他们共同关注的对象一起注意的人发出的标签(Baldwin,1995);大约在10-11个月的时候,婴儿会注意到一个人的眼睛是否睁开,以确定是否跟随他们的注视,而在10-11个月时自己发出声音的婴儿跟随注视的程度可以预测其在7-8个月后的词汇理解能力(Brooks和Meltzoff,2005) [8] 。
总之,获得语言系统的过程,就像人类交流一样,依赖于共同关注和主观能动性:即意识到另一个人正在关注什么并猜测他们意图传达什么的能力。人类儿童且不能从形式上学习意义,我们也不应该期望机器也能这样做。
[8] 这三项研究并未提及儿童正在学习的语言。但是,似乎是英语。

7 分布式语义
分布式语义学家一直意识到将分布式表示与现实世界联系起来是具有挑战性的。训练文本上的分布式模型所学习的词汇相似性关系本身并不将任何这些词汇与世界联系起来(Herbelot,2013;Baroni等人,2014;Erk,2016;Emerson,2020),而且单词的分布可能与世界中事物的分布不匹配(例如有四条腿的狗)。
提供基础的方法之一是在加入了感知数据(如照片(Hossain等人,2019)或其他形式(Kiela和Clark,2015;Kiela等人,2015))的语料库上训练分布式模型。另一个方法是寻找交互数据,例如带有成功注释的对话语料库,包括情感压力(McDuff和Kapoor,2019)或眼睛注视(Koller等人,2012)等低层次成功信号,其中包含有关形式合适使用的信号。学习者获得了除文本本身以外的更多信息,就可以更全面地了解含义的各个方面,这一想法在Bisk等人(2020)的论文中得到详细阐述。我们认为,这是一个令人兴奋的研究方向。
从这些文献中,我们可以看到“意义是使用”的口号(常被归因于Wittgenstein,1953),不是指“使用”作为“文本语料库中的分布”,而是指语言在现实世界中用于向真实人传达交际意图。说话者将他们过去的语言使用经验提炼成我们在这里所谓的“意义”,并基于此产生新的语言使用尝试;如果听者正确地推断出说话者的交际意图,则这种尝试是成功的。因此,随着说话者不同的经验(例如McConnell-Ginet,1984),静态意义随着时间的推移而演变,这种变化的反映可以在它们不断变化的文本分布中观察到(例如Herbelot等人,2012;Hamilton等人,2016)。

8 攀爬正确的山峰
对于那些训练在非语言建模任务上(如语义分析或阅读理解测试)的系统,它们使用来自BERT或其他大型LM的单词嵌入作为其中一个组成部分,情况如何?在过去几年中,许多论文已经表明,即使对于明显与意义相关的任务,使用这样的预训练嵌入也可以显著提高下游系统的准确性。
我们的论点不适用于这种情况:阅读理解数据集包含超越形式的信息,因为它们指定了文本片段之间的语义关系,因此,如果训练一个足够复杂的神经模型,它可能会在这些数据集上学习到某些意义方面。同时,可以想象预训练LM捕捉的任何信息都可能有助于下游任务学习含义,而不是含义本身。
最近的研究表明,应该谨慎解释这样的发现。正如第2节中所指出的,McCoy等人(2019)和Niven和Kao(2019)发现BERT在他们的任务数据中学到了特有的模式,而不是“含义”。除了对为什么大型预训练LM能够如此大幅提升此类任务的诊断性研究之外,我们认为在这里需要问一个更基本的问题:我们正在攀登正确的山峰吗?

8.1 自上而下和自下而上的理论构建
有两种不同的观点可以看待一个领域的进展。从自下而上的角度来看,科学界的努力是由识别特定的研究挑战驱动的。如果一个科学结果解决了这样一个具体的挑战,至少部分地解决了这个挑战,那么它就算是成功了。只要这样的成功频繁且令人满意,就会有持续进展的普遍氛围。相比之下,从自上而下的角度来看,重点是远程最终目标,即为整个领域提供完整的、统一的理论。这种观点会引起人们对我们尚未完全解释所有现象的焦虑,同时也引发了一个问题,即我们所有自下而上的进展是否都在引导我们走向正确的方向。
毫无疑问,自然语言处理当前正在快速攀登山峰的过程中。每年,在许多自然语言处理任务上的最新技术都得到了显著改进,通常是通过更好的预训练LM的使用,并且不久前看起来不可能完成的任务已经成为旧闻。因此,从自下而上的视角来看,一切都很好。但从自上而下的角度来看,问题是我们正在如此迅速地攀登的山峰是否是正确的山峰。我们如何知道对今天的任务进行渐进式的进展是否会带领我们达到我们的最终目标,无论这是“普通语言智能”(Yogatama等,2019)还是通过图灵测试的系统,或者是满足语言学家对英语、阿拉帕霍语、泰语或豪萨语意义的捕捉的系统?
回顾过去可以更好地理解这个问题。计算语言学在其历史上经历了许多流行周期。基于语法和知识的方法被统计方法所取代,如今大多数研究都采用神经方法。每一代研究人员都感觉自己正在解决相关问题并不断取得进展,从自下而上的角度来看。然而,最终每种方法都出现了严重的缺陷,这些缺陷无法令人满意地通过当时的方法解决,这些方法被视为过时的。这种负面评价——我们正在攀登一个山峰,但不是正确的山峰——只能从自上而下的角度来做出。我们已经讨论了学习含义所需的问题,试图将自上而下的视角更清晰地聚焦在这个问题上。

8.2 爬山诊断
我们只能事后明确地知道是否爬对了山,但我们提出了一些最佳实践,以进行更少错误的登山:
首先,最重要的是,对语言保持谦虚,并提出自上而下的问题。神经方法并不是自然语言处理中第一个自下而上的成功,它们也很可能不会是最后一个。
其次,要意识到任务的局限性:人工任务,如bAbI(Weston等,2016),可以帮助启动一个研究领域,但没有理由认为测试数据中语言的分布与真实自然语言的分布有任何相似之处;因此,必须非常小心地解释这些任务的评估结果。类似的观点也可以适用于众包NLI数据集,如SQuAD(Rajpurkar等,2016)或SNLI(Bowman等,2015),它们并不代表任何特定人想要询问有关文本的问题,而是众包工作的相对不自然的交际情境。如果一个系统在这样的任务上比标注者间的一致性表现更好 [9] ,那么该任务很可能存在统计学上的人为效应,而不代表含义。在视觉社区中,Barbu等人(2019)提供了一个新颖的数据集,明确尝试实现更真实的任务数据分布;对于语言领域探索类似的想法会很有趣。
第三,珍视和支持精心创建新任务的工作(也可以参考Heinzerling,2019)。例如,DROP阅读理解基准测试(Dua等,2019)旨在通过创建需要系统通过简单的算术或类似的操作来整合段落不同部分信息的问题,从而创建更严格的理解测试。[10]
第四,跨任务评估意义模型。 (持久的)含义是任务无关的,因此捕捉含义的系统应在多个任务上表现良好。类似SuperGLUE(Wang等,2019)的努力似乎是朝着这个方向迈出的好步伐。
最后,对错误和成功进行彻底的分析。正如McCoy等人(2019)和Niven和Kao(2019)所展示的那样,使用大型预训练LMs获得成功的系统并不一定是因为LMs已经学习了“含义”。从健康怀疑的态度出发的分析(“太好了不真实”)和探索性任务可以很好地找出系统表现良好的原因是否正确。
[9] https://rajpurkar.github.io/SQuAD-explorer/
[10] 请参阅附录B,了解GPT-2如何处理算术运算。

9 一些可能的反驳观点
在过去的18个月中,我们与各种同事讨论了本文的主要论点,观察到了反驳观点的反复出现。在本节中,我们回应这些反驳观点,以及可能会出现的一些其他反驳观点。
“但是,“含义”并不意味着你所说的含义。”
定义“含义”是非常困难的。针对本文的目的,我们选择了一个尽可能通用的工作定义,捕捉了一个关键点,即含义是基于语言形式和某种非语言要素之间的联系。 “含义”不能仅仅是形式和某种“深层句法”(例如,语义依赖图)之间的关系(Oepen等,2015);与句法类似,这样的表示或许可以仅从形式中学习出来(He等,2018;Hewitt和Manning,2019)。将它们等同于含义忽略了语言的核心功能,即传达交际意图。
“但含义可以从……中学习到……”
正如我们在第7节中所讨论的那样,如果形式被某种类型的基础数据增强,那么可以想象含义在一定程度上可以从这些数据中学习到,只要交际意图在这些数据中被表示。
此外,某些任务被设计成以某种方式声明特定形式表示特定的感兴趣的语义关系。其中包括NLI数据集(Dagan等,2006;Rajpurkar等,2016;Ostermann等,2019),它们将语言形式的输入/输出元组与显式语义关系(例如文本+假设+“蕴含”)配对。同样,控制代码或类似于tl;dr的标记已用于提示大型LM执行摘要和其他任务(Radford等,2019;Keskar等,2019)。在这里,测试时明确声明形式以表示特定的语义关系,再加上例如tl;dr和其他短语(如in summary)之间的分布相似性,可能足以启动成功的神经网络摘要器。根据一个人的角度,有人可能会认为这样的系统已经学会了可靠地找到关系的实例,而不需要理解文本;或者明确声明提示词(如entailed或tl;dr)作为表示某些语义关系的线索提供了超越纯形式的训练信号。
类似地,我们被指出,Github上所有Java代码的总和(参见第5节)包含单元测试,这些单元测试为Java代码指定输入-输出对。因此,学习者可以获得一种交互数据的弱形式,从中可以想象学习Java的含义。这是正确的,但需要一个已经被其人类开发者配备了识别和解释单元测试的能力的学习者。这样,学习者除了形式外还可以获得部分基础。
“但是有这么多的形式存在-这肯定足够了。”
我们已经论证了学习含义需要不止形式这个一般原则。可以观察到多少形式与我们的观点无关;章节5中的训练数据量没有限制,章节5中的章鱼可以随意观察A和B。
但是,如果给定大量形式,O可能是否能够学习在A的话语中持续产生似乎有意义的回应而不学习含义呢?问题在于人们不断产生新的交际意图来谈论他们不断演变的内部和外部世界,因此O需要记住无限多的刺激-响应对。这种方法可能是走向评估高分的途径,在那些不需要完美的评估中可能是可行的,但这可能不是通向类人NLU的途径。
“但是神经表示不也是含义吗?”
神经网络的内部表示已被发现捕捉到某些含义方面,例如语义相似性(Mikolov等,2013;Clark,2015)。正如我们在第4节中所述,语义相似性只是实际含义的一个微弱反映。神经表示既不能作为具有解释的持久含义(s),也不能作为交际意图(i),例如无法正确地构建一个椰子弹弓。
一个有趣的最近发展是出现了一种只使用两种语言的单语语料库上的语言模型目标训练的无监督机器翻译模型(Lample等,2018)。如果这样的模型能够达到监督翻译模型的准确性,那么这似乎与我们的结论相矛盾,即含义不能从形式中学习。我们的论点可能会带来一个令人惊讶的结论,即精确的机器翻译实际上并不需要系统理解源语言或目标语言的句子的含义。
“但是BERT提高了与含义相关的任务的性能,所以它一定学到了一些关于含义的东西。”
它可能学到了一些关于含义的东西,就像语法捕捉到一些关于含义的东西,语义相似性捕捉到一些关于含义的东西一样:潜在的有用但不完整的实际含义的反映。McCoy等人(2019)和Niven和Kao(2019)提供了有关仅基于现有任务的评估结果过高估计“某些东西”的警示故事。BERT及其相关模型究竟学到了什么关于含义的东西是一个非常有趣的问题,我们期待来自BERTology领域的进一步发现。

10 总结
在本文中,我们认为与当前某些炒作不同的是,含义不能仅仅从形式中学习。这意味着即使是像BERT这样的大型语言模型也不能学习“含义”;它们学习了一些将含义反映到语言形式中的东西,在应用中非常有用。我们提供了一些思考,以保持对基于这些语言模型构建研究的健康但不夸张的乐观态度。特别是,本文可以被视为在谈论当前模型的成功时呼吁精确的语言使用,并在处理自然语言时保持谦虚。我们希望通过这样做,鼓励我们的领域保持一种自上而下的视角,这将有助于我们选择正确的山丘,朝着类人NLU的方向攀登。
致谢。本文受益于许多激发人心且常常充满活力的讨论。在不暗示对所述内容的任何同意的情况下,我们感谢Sam Bowman,Vera Demberg,Lucia Donatelli,Jason Eisner,Jonas Groschwitz,Kristen Howell,Angie McMillan-Major,Joakim Nivre,Stephan Oepen,Ellie Pavlick,Benjamin Roth,Dan Roth,Asad Sayeed,Hinrich Schütze,Nina Tahmasebi和Olga Zamaraeva。本文起源于一个Twitter超级话题,由Thomas Wolf(2018)进行了简洁的总结。我们还感谢ACL审稿人以及2015年图卢兹形式和分布式语义研讨会和*SEM 2016的参与者们提供有见地和建设性的想法。

引用 & 附录 A.B
<参见原文>
