深度好文|语音语言信息处理重要研究进展
全文大纲如下(总结了12项重要进展):
1. 语音语言基础资源建设
2. 汉字编码、输入输出及汉字信息处理
3. 知识工程与知识库建设
4. 语言模型
5. 序列标注模型
6. 句法结构理论和篇章表示理论
7. 文本表示模型
8. 自动问答与人机对话
9. 机器翻译
10. 听觉场景分析与语音增强
11. 语音识别
12. 语音合成
相关报告推荐:计算机视觉重要研究进展
更多好文关注我们,查看主页中“专栏”~
以下为正文内容~

引言
语言是人类思维的载体,是人类交流思想、表达情感最自然、最直接、最方便的工具。人类历史上以语言文字形式记载和流传的知识占知识总量的80%以上。在上个世纪40年代,从计算机刚刚诞生之日起,人们就希望通过计算机解决自动机器翻译(Machine Translation, MT)问题。1956年当人工智能概念提出时,自然语言理解(Natural Language Understanding, NLU)就成为人工智能研究的核心内容之一,其主要目的是探索人类自身语言能力和语言思维活动的本质,研究如何模仿人类语言认知过程建立语义的形式化表示和推理模型。在当前全球性人工智能研究大潮中,自然语言理解更是被视为人工智能皇冠上的明珠。
在美国科学院自动语言处理咨询委员会(Automatic Language Processing Advisory Committee, ALPAC)于1966年公布的调查报告里,计算语言学(Computational Linguistics, CL)这一术语首次被提出来,其基本理念是希望通过数学方法建立形式化的计算模型来分析、理解和生成自然语言,更多地强调计算模型的有效性、可行性等基础理论和方法研究。
随着信息时代的到来,互联网和移动通信技术大规模普及和应用,人们使用自然语言进行通讯和交流的形式也越来越多地体现出它的多样性、灵活性和广泛性。这种趋势扩大了自然语言处理的需求,也对计算机的自然语言处理能力提出了更高的要求。在上个世纪70~80年代,从语言工程和建立实际应用系统的角度,人们提出了自然语言处理(Natural Language Processing,NLP)的概念,使这一学科方向的内涵得到了进一步丰富和扩展。简单地说,自然语言处理是研究如何利用计算机技术对语言文本(句子、篇章或话语等)进行处理和加工的一门学科。从研究任务的角度,自然语言处理可分为基础技术研究和应用技术研究两部分。其中,基础技术研究包括词法、句法、语义和篇章分析以及知识表示与计算等自然语言处理的基本任务;应用技术研究包括文本分类聚类、信息抽取、情感分析、自动文摘、自动问答与对话和机器翻译等自然语言处理的应用。
自然语言理解、计算语言学和自然语言处理三个术语的内涵和外延略有不同,如果说自然语言理解术语的内涵更多地聚焦在如何借鉴神经科学和认知语言学的研究成果建立语义的形式化表示和推理模型上,计算语言学则侧重关注对语言现象的数学建模方法(用计算的手段来研究语言/语言学,和为NLP提供可计算的语言学理论),那么自然语言处理则更多地关注以自然语言文本为处理对象的应用技术和系统实现方法上,但很难给出他们之间的严格区分。
需要说明的是,无论是自然语言理解和计算语言学,还是自然语言处理,其研究对象都是文本(文字)。语音和文字是自然语言的两个基本属性,因此,除了以文字为主要研究对象的上述各类技术和理论方法以外,围绕语音开展的语音识别、语音合成和说话人识别等相关研究则成为语言技术这一泛化领域的另一重要组成部分。目前人们通常把涉及自然语言的各类技术统称为人类语言技术(human language technology, HLT)。自1947年机器翻译概念提出和1949年W. Weaver 正式发表题为Translation的备忘录以来,人类语言技术经历了70多年的曲折发展历程,其技术方法大致可以分为三个阶段:(1)从学科萌芽期到上个世纪80年代后期及90年代初期,为采用以模板、规则方法为主的符号逻辑阶段,属于理性主义方法;(2)从上个世纪90年代初期到2013前后,是以统计机器学习为主流方法的经验主义方法时期;(3)从2013年之后,进入了基于多层神经网络的深度学习方法为主流的连结主义时期。从某种意义上讲,以神经网络为基础的深度学习方法也是经验主义方法的一种具体体现,都是数据驱动的方法。
正如前文所述,语音和文字是人类语言的两个基本属性,以语音为主要处理对象的语音识别、语音合成和说话人识别等通常称为语音技术,而以文本(词汇、句子、篇章等)为主要处理对象的研究,通常称为“自然语言处理”。以下分别从自然语言处理和语音技术两大方向阐述基础资源建设方面的成果进展,以及语音语言技术方法、应用系统实现及未来挑战。
回顾语音语言技术走过的70多年曲折历程,可以从如下三个方面归纳出这一领域的12项重要进展:
1. 相关技术的基础和支撑条件。语音语言基础资源和知识库建设是整个领域技术方法得以实现的基础和条件,如果没有这些资源的支撑,再好的理论和算法也都是空想;而汉字编码、输入和输出则是中文信息处理语言前提条件,一度成为困扰整个领域发展的关键因素,这一技术的突破理当载入史册。文字速录机的发明和汉字照排及印刷技术的诞生不仅彻底改变了行业的发展,而且直接影响着整个人类的社会生活。
2. 关键技术和理论方法。语言模型(n-gram)、序列标注模型和文本表示方法可以说是自然语言处理中三大支柱性的模型(尤其是在基于统计和神经网络模型的经验主义方法中),其中的n元文法模型被推广应用于图像、视觉信息处理和基因预测等领域。以乔姆斯基句法结构理论为代表的理性主义方法不仅对语言学、计算语言学、认知语言学和自然语言处理等相关研究具有重要而深远影响,甚至成为计算机编译系统建立的理论基础,且广泛应用于模式识别的其他任务。篇章表示和分析理论近年来得到了广泛关注,成为众多自然语言处理技术进一步突破的重要环节。听觉场景分析和语音增强技术则在现代语音识别系统中发挥着不可替代的作用。
3. 产业化应用情况。从产业化应用及对人类社会生活的影响等角度看,汉字输入、激光照排、搜索引擎、机器翻译、自动问答和人机对话系统以及语音识别和语音合成等,当仁不让地成为这一领域的闪光点,并在各行各业发挥越来越大的作用,甚至日渐影响人类的生活方式和思维方式。
1. 语音语言基础资源建设
语言资源库描述并存储了客观的语言知识和世界知识,是自然语言处理各种应用的核心和基础。无论是基于理性主义的规则方法还是基于经验主义的统计和深度学习方法,语言资源库都始终扮演着核心的知识支撑作用。
语言资源库包括语料库、词汇知识库、语法语义词典等,它们在不同层面构成了自然语言处理各种方法赖以实现的基础,甚至是建立或改进一个自然语言处理系统的“瓶颈”。因此,世界各国对语言资源库的开发建设都投入了巨大的努力。
从上个世纪70年代末期开始,国际上的语料库建设开始兴起,在美国、英国和法国等各国政府的资助下一大批语料库被建成,如英国Lancaster大学与挪威Oslo大学和Bergen大学联合建成的LOB语料库 (Lancaster-Oslo / Bergen Corpus)、英国国家语料库(British National Corpus, BNC)等。美国语言数据联盟(Linguistic Data Consortium, LDC)组织构建、收集和发布的一系列语言资源库(如 UPeen Tree Bank, PropBank, NomBank等)在国际上颇具影响,为语言学和自然语言处理研究发挥了重要作用。而由美国普林斯顿大学(Princeton University)认知科学实验室(Cognitive Science Laboratory)George A. Miller领导的研究组开发的英语词汇知识库WordNet是一种传统的词典信息与计算机技术以及心理语言学的研究成果有机结合的产物。从1985年开始,WordNet作为一个知识工程全面展开,经过近20年的发展,WordNet已经成为国际上非常有影响力的英语词汇知识资源库。美国加州大学伯克利分校研发的语义型词典FrameNet从语义和句法两个层面对词汇进行了分类标注,为自然语言理解方法研究提供了有力的支撑。
自1979年以来,中国开始进行语料库建设,并先后建成汉语现代文学作品语料库(1979年,武汉大学,527万字)、现代汉语语料库(1983年,北京航空航天大学,2000万字)、中学语文教材语料库(1983年,北京师范大学,106万字)和现代汉语词频统计语料库(1983年,北京语言学院,182万字)。近20多年来,相当一批大学和研究机构(包括各大学、研究所)都对汉语资源库建设做了大量工作(包括汉语、英语以及中国少数民族语言语料库)。其中,北京大学计算语言学研究所开发的“综合型语言知识库”、董振东等开发的“知网”(HowNet)是两项有代表性的成果,而中文语言资源联盟(Chinese Language Data Consortium, 缩写:Chinese LDC)则是为推动我国语言资源共享所建立的第一个联盟性学术组织。
综合型语言知识库由北京大学俞士汶教授带领团队从1986年经30余年研制而成,涵盖现代汉语语法信息词典,汉语短语结构规则库,现代汉语多级加工语料库,多语言概念词典,平行语料库,和多领域术语库。该成果获得2011年国家科技进步二等奖,为我国自然语言处理研究提供了多种类知识资源。知网由董振东教授于1988年提出,是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。知网被广泛应用于词义消歧和机器翻译等中文信息处理的各种任务。知网项目获得2012年“钱伟长中文信息处理科学技术奖”一等奖。
与此同时,用于语音识别和合成技术研发的语音库也同步兴起。用于语言及言语工程研究的自然语音库以中国社会科学院语言研究所为代表,主要包括:(1)SCSC汉语普通话单音节语音语料库:该语料库库由汉语单音节语音数据、单音节表及管理软件组成。(2)WCSC汉语普通话两音节语音语料库:该语料库由汉语两音节语音数据、两音节语料表及管理软件组成。(3)ASCCD汉语普通话朗读语篇语料库:该语料库由语篇语料、语音数据和语音学标注信息组成,内容包括18篇文章,体裁覆盖记叙、议论、通讯、散文等常见文体。(4)CADCC汉语普通话自然口语对话语料库:该语料库由自然口语对话语音数据和对话文本组成。为保证自然口语的纯粹性,该语料库对发音人对话内容不作任何限制,完全反映真实环境下汉语自然口语特征。(5)TSC973电话语料库:该语料库由真实环境下收集的酒店订房电话(对话)语音数据、文字转写和多层语音学标注组成,共有10个对话单元。上述语料资源是自然语音库的典范,为语音学、自然语音处理和语音人机交互等领域的发展奠定了坚实的基础,极大地促进了相关领域的理论创新与技术突破。
2. 汉字编码、输入输出及汉字信息处理
汉字作为中华民族璀璨文化中独具特色的一项发明,在数千年一脉相传的历史中,为记载、继承和传播中华文化建立了不朽的功勋。然而,当20世纪40年代电子计算机问世,并迅速引发席卷全球的信息技术革命,如何对汉字进行编码、存储、输入和输出等一系列关于汉字处理的难题,曾一度成为电脑在中国普及和推广的“拦路虎”。因此,从上个世纪70年代中期到80年代末期,汉字信息处理技术成为当时的研究热潮。
汉字信息处理主要指以汉字为处理对象的相关技术,包括汉字字符集的确定、编码、字形描述与生成、存储、输入、输出、编辑、排版以及字频统计和汉字属性库构造等。一般而言,汉字信息处理关注的是文字(一种特殊的图形)本身,而不是其承载的语义或相互之间的语言学关系,因此,这里将其分离出来单独介绍,而后面将要重点介绍的“汉语信息处理”部分则是指对传递信息、表达概念和知识的词、短语、句子、篇章乃至语料库和网页等各类语言单位及其不同表达形式的处理技术。
在汉字信息处理中,有两个问题最引人注目,一是汉字的输入问题,二是汉字的排版、印刷问题。其中,汉字输入问题又分为键盘输入和非键盘输入两种。所谓键盘输入是指通过对汉字进行“编码”,即利用普通计算机键盘上的英语字母键之间的组合,建立起它们与汉字之间的对应关系,并将这种对应关系以编码对照表的形式存储在计算机内部,最终利用转换软件将键入的字符串转换为对应的汉字。
我国最早的计算机汉字编码输入始于上个世纪50年代的俄汉机器翻译研究,当时只能用电报码和四角号码做汉字编码。60年代完成了“见字识码”的方案设计和码本。1967年ASCII码(美国信息交换标准代码)规范标准正式发表,利用8位二进制(一个字节)表示控制状态和所有英文字符,解决了英文的计算机存储和处理难题。由于一个字节只能表示256种符号,而常用汉字则多达几千,因此汉字无法仅用一个字节表示。1978年5月上海推出了一台汉字信息处理实验样机。20世纪80年代,在联想汉卡、四通中文电脑打字机之后,中国的汉字编码出现了“万码奔腾”的局面,从“五笔字型”,到自然码、郑码、拼音输入法、智能ABC、智能狂拼等,相对规范、易学易用的输入法不断推出。国家七五、八五重点科技攻关项目“PJS普及型中文输入系统”、“规范码汉字输入系统”和“认知码”等都对汉字编码输入方法进行了深入研究,并取得了一批研究成果。尤其值得提及的是,速记专家唐亚伟先生发明的亚伟中文速录机,实现了由手写速记跨越到机械速记的历史性突破,这一成果被迅速推广应用,催生出了速录行业和速记师职业。2006年91岁高龄的唐亚伟获得我国中文信息处理领域的最高科学技术奖—钱伟长中文信息处理科学技术奖一等奖。
非键盘输入是指不借助键盘直接将汉字或数字等字符输入计算机的技术,常用的方法包括文字识别、语音识别等。汉王文字识别技术是一个成功的代表。
在汉字的排版、印刷方面,以北京大学王选院士为代表的从事汉字照排和印刷技术研究的老一代专家在解决巨量汉字字形信息存储和输出等问题中做出了卓越贡献。1981年第一台汉字激光照排系统“原理性样机”通过鉴定,1985年激光照排系统在新华社正式运行。1987年《经济日报》采用激光照排系统出版了世界上第一张采用计算机屏幕组版、整版输出的中文报纸,成为国内第一家全部废除铅字排版的报纸。此后,国产激光照排系统迅速推广应用,在中国掀起了“告别铅与火,迎来光与电”的印刷技术革命。另外,上个世纪80年代完成的《汉字频度表》、 《现代汉语频度词典》、GB2313-80、 6763汉字属性信息库等一系列基础性工作,都为后来的汉语信息处理研究奠定了很好的基础。
3. 知识工程与知识库建设
知识是信息的一种抽象形式,是构成智能的基础。知识工程的概念1977年由费根鲍姆(Feigenbaum)提出,主要是研究知识获取、知识表示和知识使用的学科。概括地讲,知识工程是研究知识信息处理的学科,它起源于20世纪70年代的专家系统,历经近50年的发展,近年来出现了大规模知识图谱技术。
RI(XCON)计算机系统配置系统、医疗领域的MYCIN系统和石油探测领域的Dipmeter系统等是传统知识工程的代表,在规则明确、边界清晰和应用聚焦的应用场景中取得了巨大成功。针对传统知识工程系统的知识获取和知识应用的困难,万维网和语义网的出现极大便利了知识的组织形式和获取方式。2001年,万维网(WWW)之父蒂姆-伯纳斯-李(Tim Berners-Lee)提出语义网的概念,旨在解决知识的表示和组织形式,维基百科等给知识获取提供了半结构化的信息来源。随着大数据时代的到来,知识库技术突破了规模与质量的瓶颈,2012年谷歌知识图谱的诞生是这一突破的标志性产物,它推动知识工程进入全新阶段。近年来,百度知识图谱和搜狗知立方成为代表性的中文知识图谱,为搜索引擎提供准确和丰富的知识回答提供了核心知识支撑。此外,Freebase、ConceptNet、BabelNet、NELL、Yago、DBpedia等大规模知识图谱为英语和汉语等语言的分析和理解、机器翻译、问答和对话等自然语言处理应用任务提供了丰富的知识资源,直接推动了知识问答和对话等技术的实际落地。
以知识图谱为代表的知识库建设给产业界和学术界带来了积极深远的影响。以百度知识图谱为例,该知识图谱拥有数亿实体和千亿事实,具备丰富的知识标注与关联能力,包括通用知识图谱、行业知识图谱和关注点图谱等多维度知识图谱,自2014年上线以来服务规模增长了300多倍。知识图谱技术推动着搜索引擎往智能化发展,从而更好地理解用户需求,并以更加便捷友好的呈现方式直接给用户答案。从学术角度,越来越多的研究开始在自然语言处理模型中融入知识图谱,使机器更好地理解自然语言,让模型具有更强的学习能力和可解释能力。当前,大数据和深度学习给自然语言处理带来了突破性进展,同时也面临着小数据场景、不可解释和可控性差等一系列问题,导致自然语言处理研究开始逐渐进入一个平台期。而以知识图谱为代表的知识库建设被认为是驱动自然语言处理产生下一个突破的关键技术。
4. 语言模型
语言模型(language model)最早来自语音识别研究,之后在自然语言处理中得到广泛应用,其目的就是自动估计自然语言句子或词语序列真实出现的概率,也即衡量句子或词串的流畅程度和符合文法的程度。形式上,语言模型刻画了一种条件概率,即给定前驱n-1个词语的条件下,估计第n个词语出现的概率。
由于n越大,n-1个词语组成的序列出现的可能性越小,因此原始语言模型的条件概率难以计算。1980年Fred Jelinek等人假设语言模型条件概率符合n-1阶马尔科夫链:第n个词语出现的概率仅依赖于之前n-1个词语的历史信息,也即n-元语法模型。n-元语法模型基于最大似然估计方法通过相对频率计算概率,因数据稀疏问题可能出现零概率事件,即出现数据稀疏问题。为此,人们提出了加法平滑法(additive Smoothing)、古德图灵法(Good-Turing)、线性插值(Linear Interpolation)、KN算法(Kneser-Ney Smoothing)和Katz平滑法等一系列平滑算法解决数据平滑问题。
为了更加有效地缓解相对频率模型的数据稀疏和语义鸿沟等问题,Yoshua Bengio于2001年提出基于前馈神经网络的n-元语法模型,将每个词语映射至低维实数向量,并在连续的实数向量空间中计算词语序列的概率。鉴于n-元语法模型仅仅利用固定窗口大小的历史信息,2010年,Tomas Mikolov等人提出基于循环神经网络的语言模型(neural language model),舍弃n阶马尔科夫链的假设,直接对n-1个词语序列的历史进行建模,即利用所有的历史信息预测下一个词语的出现概率。由于循环神经网络建模长距离依赖关系的能力受到限制,Alec Radford等人于2018年提出基于自注意力机制(self-attention)的语言模型,任意两个词语的依赖关系可以通过直接连接的方式进行度量,语言模型的性能和效率同时获得实质性提升。
语言模型被广泛应用于中文输入法、机器翻译、自动摘要与人机对话等各种文本生成和文法自动校对等任务中,推动了这些任务的技术发展和产业应用。在统计机器学习时代,语言模型用来度量候选结果序列的出现概率,从候选结果列表中挑选出最流畅的候选。在深度学习时代,机器翻译、自动摘要和人机对话等文本生成任务直接可以视为一个语言模型问题,在分布式表示和端到端建模方法的基础上取得突破性进展。尤其是ELMo、GPT和BERT等预训练模型的提出极大地推动了语言模型在各个自然语言处理任务上的应用。这类模型基于分布式表示和深度神经网络模型(尤其是多层自我注意力机制模型)以互联网海量文本为输入,学习一个通用的语言模型,能够充分记忆上下文语义信息。若以该模型为基础在不同自然语言理解任务上进行参数微调,在很多任务上达到目前的最佳性能,例如在阅读理解任务上已经超越普通人类的水平。特别的,使用更大规模训练数据的GPT-2和GPT-3模型可以自动生成行文流畅的新闻文本,充分体现了语言模型的优势。
5. 序列标注模型
序列标注模型就是利用机器学习方法为给定序列中的每个元素预测一个标签。在自然语言处理任务中,作为处理对象的文本可以视为字符或单词的序列。很多自然语言处理任务,例如以汉语分词为代表的词法分析、以依存关系分析为代表的句法分析和以语义角色标注为代表的语义分析等都可以形式化为序列标注问题,即为文本序列中每个字符或单词预测一个标签。自数据驱动的自然语言处理方法兴起后,序列标注模型成为词法、句法和语义分析等自然语言处理任务的主流方法,1990年代的隐马尔科夫模型、2000年后的最大熵模型、支持向量机和条件随机场模型,以及2010年代的深度学习模型是不同历史时期典型的序列标注模型,在各自的历史阶段推动了自然语言处理技术的发展。
以汉语分词为例,汉语书写时字与字之间没有空格,汉语分词就是利用计算机将汉字序列自动准确地切分为词语序列,是汉语句法、语义、篇章等基础分析和各种中文信息处理应用的基础。传统基于词典的模型很难处理歧义词和未登录词语,Nianwen Xue(薛念文)等人于2002年提出由字构词的汉语分词思想,将词语中的每个字分为四类:词首(Begin, B)、词中(Middle, M)、词尾(End, E)和单字词(Single, S),将汉语分词问题自然转换为针对汉字的序列标注任务,使得最大熵、条件随机场和循环神经网络等序列标注模型能够应用于汉语分词任务,极大提升了汉语分词任务的性能。例如,在新闻领域的F1值从90%左右提升到超过97%,带动了以汉语分词为基础的各种自然语言处理技术的发展和应用。
无论是学术界还是产业界,序列标注模型给自然语言处理技术的发展带来了积极深入的影响。在学术界,序列标注模型已经成为各种自然语言处理任务的基本处理范式。研究者将几乎所有自然语言理解的研究问题都转换为序列标注任务,特别是2018年谷歌提出的BERT预训练语言模型,将11种自然语言理解任务统一于序列标注模型的框架下,取得了媲美人工水平的效果。在产业界,序列标注模型推动了自然语言处理技术的实用化。百度、搜狗等搜索引擎公司和京东、阿里巴巴等电商公司都在使用基于序列标注模型的自然语言理解技术提升用户的满意度。
6. 句法结构理论和篇章表示理论
上个世纪50年代是句法理论发展的辉煌时期。1953年法国语言学家吕西安泰尼埃(Lucien Tesnière)发表《结构句法概要》,1957年诺姆乔姆斯基(Avram Noam Chomsky)出版《句法结构》,同年美国学者英格维(V. Yngve)发表《句法翻译框架》,一批语言学理论相继问世,由此开创了语言研究的新历程,在自然语言处理领域近四十年盛行不衰,对于本领域的贡献和影响毋庸置疑,功在千秋。尤其需要提及的是,乔姆斯基句法结构理论不仅在自然语言处理领域广泛应用,而且成为计算机编译系统的理论基础,同时对语音识别、模式识别和认知语言学等相关研究产生了深远影响。
句法结构理论主要用于分析句子中词语之间的组合和依赖关系,其中,以乔姆斯基上下文无关文法(Context-Free Grammar, CFG)为基础的短语结构分析和以泰尼埃配价理论为基础的依存关系分析是两大主流技术。短语结构分析技术将句子分析成层次化的短语结构树,该技术被广泛应用于命名实体识别、词性标注、语言教学、问答系统和机器翻译等几乎所有的自然语言处理任务,甚至在语音识别中也用到短语结构分析技术。为了缓解和建模词汇组合的歧义问题,概率上下文无关文法(Probabilistic Context-Free Grammar, PCFG)对上下文无关文法进行了扩展,能够为句子找到最有可能的短语结构树,从而进一步提升了句法结构分析的准确率和实用性。
依存关系分析主要用于刻画词语之间的语义依赖关系(或称从属关系),由于该技术直接从语义角度分析句子,因此在词义消歧、文本蕴涵和推理、自动问答及机器翻译等很多自然语言处理任务中同样发挥了巨大作用。依存关系分析可以在短语结构分析结果的基础上通过转换的方法实现。
另外,上个世纪60至80年代提出的格语法(Case Grammar)、词汇功能语法(Lexical Functional Grammar, LFG)、管辖约束理论(Government and Binding theory, GB)和功能合一文法(Function Unification Grammar, FUG)等理论进一步丰富了句法和语义理论的发展,共同成为理性主义的自然语言处理方法中不可忽视的家族成员。由于句法理论为句子分析提供了结构化信息,成为很多自然语言处理任务的关键技术,因此在端到端的神经网络方法提出之前几乎成为无法绕开的技术核心,甚至直到今天仍然在很多应用系统中发挥着不可替代的作用。例如,百度公司利用依存结构文法分析用户查询的语义,准确把握用户意图,提升搜索结果的用户满意度;很多自动问答和客服系统是基于规则和模板实现的。
篇章(discourse)是由句子按照一定的逻辑语义顺序组成的语言单位,包括段落、整篇文章或对话,甚至一部著作也可算作一个篇章。因此,篇章理论研究的是段落或篇章中句子之间的组合和依赖关系。目前广泛采用的篇章理论包括修辞结构理论(rhetorical structure theory, RST)、中心理论(centering theory)、脉络理论(veins theory)、篇章表示理论(discourse representation theory, DRT)和言语行为理论(speech act theory)等,而这些理论无一例外地来自西方语言学。汉语的篇章结构与英文有明显的区别,这是大家所共知的事实。针对汉语,我国宋柔教授提出的“广义话题结构理论”能够较好地处理汉语中典型且常用的流水句,苏州大学自然语言处理团队提出了一种以篇章主次关系作为媒介,归纳出一个微观和宏观统一的多层篇章结构表示体系,该体系为语料资源构建和篇章语义分析与计算模型研究奠定了基础,可应用于自动文摘与机器阅读理解等领域。
近年来,基于篇章的问答、阅读理解和机器翻译成为人们关注的研究热点。
7. 文本表示模型
文本是序列化和结构化的语言表达。如何表示文本和如何计算文本之间的相似性一直是自然语言处理面临的一个挑战。文本表示模型旨在对文本进行高效准确地表示,为自然语言理解和语义计算提供基础。文本表示模型的核心体现在基本单元词汇的语义表示和词汇表示到文本表示的语义组合方法。自然语言处理几十年的发展历程中,词袋表示和分布式表示是文本表示的两大经典模型。
1954年Harris在《Distributional Structure》的文章中提出词袋的概念,在随后的几十年中词袋模型一直是文本表示的主流模型。词袋模型是一种简洁高效的文本表示方案,首先遍历所有文本计算词汇集合,然后将每个文本视为词汇集合的一个子集,并赋予集合中的每个元素相应的权重,最终获得文本的词袋表示。其中,词汇权重的计算是关键,一般可以采用布尔值(词汇是否在文本中出现)、频率(词汇的出现次数)和词频-逆文档频率等方式进行估计。词袋表示模型极大推动了文本匹配、文本分类和情感分析等自然语言处理任务的发展。并且,词袋模型的概念也被成功应用于视觉和图像领域,发展成为视觉词袋模型,展现了该模型的重要意义和价值。
近年来,分布式表示进一步提升了文本表示模型的能力。以词语的分布式表示为例,在传统的基于离散符号的词语表示方法中,由于只采用字符串匹配的方式提取特征并计算语言单元之间的相似性,这一方面容易导致数据稀疏问题,另一方面无法捕捉词语之间的语义相似性。2003年,Yoshua Bengio提出采用低维连续的实数向量表示每个词语,并以此为基础学习n-元语法模型,标志了分布式文本表示的开端。词汇的分布式表示解决了词袋模型“非0即1”的问题,并且能够在低维连续的实数向量空间中度量词汇的语义距离,这样数学上的连续函数、可导、可微操作都可以语义计算上得到应用,是语义计算模型描述能力大大增强。在词汇分布式表示的基础上,语义组合方式成为文本表示的焦点。前馈神经网络、循环神经网络、卷积神经网络和Transformer网络是语义组合的代表模型。前馈神经网络拼接固定窗口中相邻词汇的语义表示并通过线性和非线性映射获得输入文本的表示。循环神经网络从左往右或从右往左地顺序组合词汇的语义表示,并用最后时刻的隐藏状态作为文本最终的语义表示。卷积神经网络自底往上不断地卷积局部窗口信息,并通过池化的方式表示文本最重要内容。2017年开始兴起的Transformer模型通过词汇间两两计算的方式更加高效地组合词汇的语义从而获得文本的语义表示。分布式文本表示模型极大地便利了自然语言的表示和计算,成为深度学习应用于自然语言处理任务的基石,推动了文本理解和机器翻译等应用的突破性发展。
8. 自动问答与人机对话
自动问答和人机对话系统一直是自然语言处理和人工智能领域研究的热点,其目标是利用计算机自动回答用户所提出的问题以满足用户知识需求。不同于现有搜索引擎,问答系统是信息服务的一种高级形式,系统返回用户的不再是基于关键词匹配排序的候选问答列表,而是精准的自然语言答案。1950年,阿兰图灵以自动问答的实现方式提出了经典的图灵测试。从技术上,自动问答主要经历了检索式问答和知识库问答两种范式。1999年,美国国家标准技术研究院组织的问答评测任务推动了检索式问答技术的发展。随着Freebase和DBpedia等知识图谱的构建和完善,基于知识库的问答技术开始受到越来越多的重视。与自动问答相比,人机对话更加广泛,是指让计算机像人一样通过自然语言与人类进行自由沟通和交流。除了自动问答,人机对话还包括聊天型对话、任务型对话和推荐式对话。1966年,历史上第一个聊天机器人ELIZA在麻省理工学院诞生,主要功能是通过与病人聊天达到心理治疗的目的。1995年,卡内基梅隆大学开发出A.L.I.C.E聊天机器人。Siri是以任务型对话为主的智能助理的代表,于2011年正式发布。2015年百度研发推出了对话式智能秘书“度秘(Duer)”。2014到2016年,微软、亚马逊和谷歌分别推出了Cortana、Alexa和Assistant智能助理。自动问答和人机对话已经成为人们生活中的常用工具。
2011年,IBM公司开发的沃森问答系统参加“危险边缘”的知识竞赛,一举击败两名顶级人类专家,获得世界冠军,标志着自动问答技术的突破性进展。据微软报道,聊天机器人“微软小冰”在全球已拥有6.6亿用户,1.2亿月活跃用户。亚马逊公司表示,截止2019年,该公司已经售出了超过1亿台Alexa智能助理终端。可见,应用于手机、电脑、智能家电等各类型终端的自动问答和人机对话已经成为很多人生活中的一部分。
在学术影响方面,近年来的顶级会议投稿数据显示,自动问答与人机对话已经是最大的关注点。据2019年自然语言处理顶级国际会议ACL的统计,在20多个领域中,自动问答与人机对话的投稿量占据所有投稿量的11.6%。在产业影响方面,越来越多的公司重点投入对话系统的研发,例如除了谷歌、微软和亚马逊等美国公司,国内的百度、阿里巴巴和京东等公司都在发力人机对话系统,尤其是智能助理和智能客服。
9. 机器翻译
机器翻译是自然语言处理技术最典型的应用,其目标就是利用计算机将一种自然语言(源语言)自动转换为另一种自然语言(目标语言)的技术,是自然语言处理的代表性应用技术,是突破全球语言障碍的关键。根据系统输入的不同,机器翻译包括文本翻译和语音翻译两种。语音翻译是语音识别、文本翻译和语音合成三种技术的集成。
自1947年机器翻译概念正式提出以来,机器翻译经历了七十多年的发展过程。1990年之前,基于规则的方法是机器翻译的主流,由通晓两种语言的专家设计语言转换规则,实现源语言文本到目标语言文本的自动翻译。1990年至今,随着平行语料数据规模的不断增长和机器学习理论方法的不断发展,数据驱动的机器翻译方法占据主导地位,其中包括统计机器翻译和神经机器翻译。
1990年至2014年左右,统计机器翻译是主流。该技术从双语对照的训练语料中学习两种语言词汇、短语和片段之间的映射关系(翻译规则)并估计每条翻译规则的概率,最终对未见的测试句子利用翻译规则进行解码获得目标语言译文。基于统计机器翻译技术,谷歌2006年上线了第一个机器翻译在线系统,百度2011年也上线了以汉语为中心的在线翻译系统,使机器翻译快速进入大众的学习、工作和生活中。然而,统计机器翻译的译文质量十几年里一直无法令人满意,该模型中的词语对齐、翻译模型、语言模型和调序模型等多个人工设计模块的级联范式受到错误传递的严重影响,而且这种基于离散符号匹配的框架缺乏相似语义建模的能力、无法充分拟合训练数据。2014年,Sutskever等人提出端到端序列生成的神经网络机器翻译模型,它在分布式表示的基础上,直接采用编码器-解码器的全新范式对机器翻译进行建模,编码器将源语言句子编码为低维连续的语义向量,解码器将该语义向量解码生成目标语言的句子。这种全新的端到端序列生成范式直接拟合两个序列之间的映射函数,极大提升了模型的学习能力和泛化能力。随后,Bahdanau等人于2015年将注意力机制模型首先引入端到端的机器翻译任务,为预测目标语言句子每个词语动态计算应该关注的源语言句子的局部上下文信息,极大地提升了译文质量和解码过程的可解释性,推动了机器翻译技术的变革性发展。注意力机制也被成功应用于自动问答、阅读理解和人机对话等各种自然语言处理任务以及图像和视觉任务,成为模式识别领域的一个标准模块。2016年谷歌上线基于深度学习的端到端机器翻译系统,分析证明在多个语言对上相比统计机器翻译模型性能提升50%以上。2017年谷歌再次提出Transformer机器翻译模型,进一步改善了机器翻译的效果。
近年来随着语音识别、机器翻译和语音合成技术的快速进展,语音翻译的性能也在不断提升,甚至在简单的日常口语对话场景下,说话人发音基本标准时,汉英、汉日等大语种之间的口语翻译基本可以满足普通用户的简单翻译需要。
在学术影响方面,机器翻译一直是向不同领域不同学科输出技术的研究方向。端到端建模和注意力机制成为自然语言文本生成和诸多人工智能任务的基本建模方法。在产业影响方面,谷歌、百度、阿里、有道和搜狗等公司基于端到端建模和注意力机制开发的在线翻译系统成为人们日常生活中多语言信息获取的必备工具,据谷歌、百度和阿里巴巴等公司报道,在线机器翻译每天提供几千亿字符的翻译服务需求;科大讯飞、百度和搜狗等公司基于此技术研发的多语言翻译机已经成为人们出国旅游有效的日常语言交流工具。
10. 听觉场景分析与语音增强
语音增强的目标是提高带噪语音的可懂度和感知质量,旨在降低噪声干扰的同时保持语音不失真,它对语音识别和语音通信等现实应用具有重要价值,是语音信号处理领域的一个重要研究课题。
听觉场景分析是语音增强中一个非常经典的方法,它是Bregman在1990年根据人类对声音信号的处理原理和认知心理学而首次提出的概念。人类听觉系统对语音信号的感知能力大大超过目前的信号处理水平,特别是在强噪声干扰下,人类能有选择地“听取”所需的内容,即所谓的“鸡尾酒会效应”。听觉场景分析是解决这一问题的关键技术。目前针对听觉场景分析的研究有两种方法:一种是从人的听觉生理及心理特征出发,研究人在声音识别过程中的规律,即听觉场景分析(auditory scene analysis, ASA);另一种是利用计算机技术来模仿人类对听觉信号的处理过程,即计算听觉场景分析(computational auditory scene analysis,CASA)。计算听觉场景分析技术以听觉场景分析为机理,试图通过计算机模拟人耳对声音的处理过程来解决语音分离问题,是一种结合人类听觉特性语音增强方法。
语音增强主要用于抑制噪声、混响、人声等干扰同时增强目标语音,它主要包括语音降噪,语音去混响和语音分离等技术。早期的语音增强主要通过信号处理方法抑制干扰信号,如谱减法、维纳滤波法、最小均方误差法等。这些方法计算复杂度相对较低,但是难以有效抑制非平稳干扰。基于麦克风阵列的语音增强方法可以有效增强目标方向的语音,但通常受限于麦克风阵列的结构。非负矩阵分解(Nonnegative Matrix Factorization, NMF)算法是另一类语音增强方法,它通过矩阵分解的方式分离出有效的语音成分,去除干扰信号。这类方法的缺点是计算复杂度相对较高。近年随着深度学习的成功,基于深度学习的单通道语音增强方法也越来越流行。汪德亮等人利用深度神经网络去学习时频域的声学特征和目标掩蔽值之间的映射,有效提升了语音增强算法的性能。李锦辉等人提出了另一种基于深度学习的语音增强方法,利用深度神经网络建立噪声信号的幅值谱和干净目标语音的幅值谱之间的映射关系。近几年,循环神经网络、卷积神经网络和对抗网络等网络结构也应用于语音增强中,并且都取得了较好的效果。同时,为了进一步提升语音增强的性能,近年出现了基于端到端的语音增强方法,其直接利用时域的波形点作为特征来进行语音增强。这类方法可以很好地解决以前方法中增强后幅值谱和相位谱不匹配的问题。基于深度学习的语音增强方法可以有效抑制复杂场景下噪声、混响、人声等干扰。
在学术影响方面,语音增强由传统的信号处理方法转向基于深度学习的方法,从而提升复杂场景下的语音建模能力。在产业影响方面,谷歌、百度、科大讯飞、阿里巴巴和搜狗等公司已经将基于深度学习的语音增强方法作为语音识别和声纹识别的前端模块,应用到输入法、智能家居、智能车载、语音质检和法庭转写系统等产品中。
11. 语音识别
语音识别是指利用计算机,自动地将人类的语音转换为其对应的语言符号的过程。语音识别是人类和计算机利用语音进行交互的基础性技术,也作为人工智能的代表性技术出现在众多科幻作品中。从1952年贝尔实验室早期的数字识别,到现在人们语音输入法走进了人们的生活,语音识别经历了模式匹配,统计方法,一直到当代深度学习方法的发展。自从1980年代开始,语音识别一直是大规模数据驱动的统计学习方法的代表性技术。从2010年代开始,数万小时级别的标注语音的积累,高性能计算设备的发展,以及深度学习技术的普及,大大提升了语音识别的准确率,将语音识别带入了人们的生活。
早期的语音识别技术采用的是模板匹配的方法,即将待测语音与模板库中的模板进行比对,看和哪一个接近,就认为待测语音是那一个词。这一时期的代表性工作是动态时间弯折技术(Dynamic Time Warping,DTW),其可以计算两个未对齐序列之间的相似程度。20世纪60年代,隐马尔可夫模型(Hidden Markov Models, HMMs)被引入到语音识别中。到80年代中期,Lawrence Rabiner和庄炳煌等将高斯混合模型引入到隐马尔可夫模型中,极大地提升了隐马尔可夫模型建模能力。20世纪80年代末,卡内基梅隆大学博士生李开复基于隐马尔可夫模型开发了第一个大词汇量说话人无关的连续语音识别系统Sphinx。然而截至2010年前,语音识别的准确率还不够高,依然无法实用。2012年前后,邓力、俞栋等在Hinton的协助下,将深度神经网络用于对语音识别声学模型进行建模,大大提升了语音识别系统的性能,在Switchboard数据集上的识别错误率相对下降30%。此后一系列深度学习声学建模技术,如卷积神经网络,循环神经网络等,极大地提升了识别准确性。联结主义时序分类(Connectionist Temporal Classification,CTC)被提出用于端到端声学模型,该模型摒弃了隐马尔可夫模型,直接对声学特征进行建模,不仅克服了高斯混合模型-隐马尔科夫模型生成强制对齐信息的带来的误差,而且简化了声学模型的训练步骤。在语言模型方面,早期的语言模型采用基于马尔可夫假设的N元语法语言模型;近年来,基于循环神经网络的语言模型将上下文信息编码为隐变量,理论上可以记忆无限长的上下文信息,精度相比N元语法大大提升。近几年,一系列完全采用深度神经网络的端到端语音识别系统被很多学者关注。相比于非端到端系统,端到端系统语音语言联合建模,体积更小,便于应用在终端,并且还可以大大简化训练流程。端到端语音识别模型主要可以概括为两类:基于注意力机制的编码器解码器模型(Attention Based Encoder-Decoder Models)和循环神经网络转换器(Recurrent Neural Network Transducers, RNN-Transducers)。基于注意力机制的编码器解码器模型是将声学特征编码为隐变量,然后利用条件化的语言模型逐字地生成标注序列。循环神经网络转换器是利用多层感知机融合声学预测和语言预测,训练时极大化所有可能的对齐情况,这种模型的优点是可以实时解码。
随着语音识别技术的不断成熟,越来越多的研究者开始关注复杂场景下的语音识别技术,例如面对口音、不同信道、口语化、多语言以及低资源等场景下的语音识别。针对复杂声学环境,与前端语音增强模块进行结合,来提高声学鲁棒性。基于对抗训练(Adversarial Training)来提取在噪声,口语,信道,口音方面更为鲁棒的声学特征,可以大大提升了模型的鲁棒性。对于多语言语音识别,为了搭建统一的多语言语音识别框架,通常采用在传统语音识别中构建统一音素建模单元的方法。然而这类方法对于每一种语言都需要大量的专家知识,因此,在端到端语音识别中广泛使用Unicode编码作为建模单元。在小语种低资源语音识别中,基于迁移学习(Transformer Learning)的统一表示被成功应用于这一类任务。进一步,基于元学习(Meta Learning)的多语言语音识别模型预训练方法也在该任务上取得了成功。
在学术影响方面,作为一种典型的序列到序列的转换问题,语音识别是模式识别学科的重要研究课题。一系列针对序列问题的建模技术在语音识别的研究中诞生或发展,如隐马尔可夫模型,深度神经网络,联结主义时序分类,编码器-解码器模型等。在产业应用方面,语音识别是人机语音交互的第一关,是让机器听懂人声音的“耳朵”,可以广泛地应用在人机对话、智能语音助手、智能家居系统、输入法、机器人等产品中。语音识别还可以应用在会议速记、字幕生成、语音翻译等应用中。
12. 语音合成
语音合成又称为文语转换(Text-to-Speech, TTS),指从文本信息到语音信号的转化过程,其主要目标为让机器会更加拟人地说话。语音合成技术起源于18世纪,发展至今已有两百多年,按时间顺序,语音合成的发展大致经历了机械式、电子式以及计算机的语音合成等三个阶段。
机械式语音合成器的研究起源于欧洲,研究的重点主要集中在从生理角度模仿人类的发音器官,离实际应用还相距很远,但这些努力在电子式语音合成器出现之前做了很多有益的探索。20世纪初叶,无线电技术的进步使得采用电子的方法生成声音成为可能。但电子式语音合成器时代,合成声音音质还是不理想,随着通讯技术的发展,人们对发音机理的认识逐渐完善,这也为基于计算机的语音合成奠定了基础。随着20世纪计算机技术的迅猛发展和计算机硬件设备的不断提高,语音合成技术进入了计算机语音合成时代,其分别经历了线性预测编码器技术、串、并联混合型的共振峰合成器、基于时域波形修改的基音同步叠加算法等算法,这些算法使波形拼接语音合成技术迎来了一次发展高峰。20世纪末,统计参数语音合成(Statistical Parametric Speech Synthesis, SPSS)逐渐成为了新的主流,其典型代表是基于隐马尔科夫模型(Hidden Markov Model, HMM)的语音合成,相应的合成系统称为基于HMM的语音合成系统。该方法的基本思想是,基于统计建模和机器学习的方法,利用语料库进行训练,自动寻找从文本特征到声音参数间的映射关系,达到快速构建语音合成系统的目的。2006年以来,基于神经网络的建模方法在机器学习的各个运用领域都表现出优于传统模型的能力。自2013年开始,在统计参数语音合成领域,深度学习也取得了迅速发展,在系统中的韵律模型、声学模型、参数生成、声码器建模等方面均取得显著提升,正逐渐取代基于HMM的参数语音合成成为主流的建模方法。近年来,许多复杂的机器学习任务受益于强有力的计算模型而变得简单,也催生了端到端的语音合成建模方法,如谷歌提出了文本到声学参数的映射框架Tacotron,以及声码器模型WaveNet等。随后谷歌提出的声码器WaveRNN,可应用在手机,嵌入式等资源比较少的系统。此外,将线性预测与递归神经网络相结合的WaveRNN变种LPCNet被提出,显著提高语音合成的效率进一步提高。这种端到端建模方法能化繁为简,降低了系统构建的难度,也有效避免传统方法多阶段建模导致的误差累积。不仅如此,端到端语音合成方法还取得了性能上的大幅度提升,甚至在某些数据集上达到了媲美真实声音的水平。此外,以端到端模型为基础,以全局嵌入风格嵌入向量为核心,针对低资源的多风格个性化语音合成也成为了研究热点,仅采用数十分钟甚至几分钟的目标语料即可达到较高相似度的合成水平。
在学术影响方面,语音合成是一种将文本序列转换为语音序列的生成问题,属于模式识别学科的重要研究课题。一系列针对序列生成问题的建模技术在语音合成的研究中得到迅速发展。在产业应用方面,语音合成技术作为让机器成为会说话的“嘴巴”,已经广泛应用于如下场景:语音交互、智能家居、智能客服、阅读、教育、娱乐、可穿戴设备,涉及军事、国防、政府、金融等不同领域,其应用产品在人们日常生活中随处可见。
*本文来自模式识别国家重点实验室组织发布的模式识别学科发展报告,已得到模式识别国家重点实验室授权发布。