欢迎光临散文网 会员登陆 & 注册

三分钟科普|语料库初探(二)

2022-08-13 15:06 作者:翻译技术点津  | 我要投稿



读者朋友们大家好🤗


在上期语料库系列推送中,我们带大家一起了解了语料库的具体内涵、发展历史和分类,对语料库形成了初步认识。


随着计算机技术的跨越式进步,语料库也从单一纯文本发展到聚合音视频、图像等多模态语料库,不仅规模从百万级发展到千万级再到亿级和万亿级,加工深度越来越深,应用范围也越来越广。


语言学家借助语料库观察、研究语言发展规律;词典编纂者使用语料库编纂各类用途的词典;社会学家通过语料库研究社会变迁;机器翻译研发团队也需要借助语料库来训练高质量的机器翻译引擎。此外,对我们的语言学习者、翻译研究者和翻译实践者来说,语料库也发挥着不可忽视的作用。


本期推文将从以下几个方面带大家进一步了解语料库


(1)翻译学习必备语料库

(2)语料库常见用途一览

(3)语料库的优点与不足


一、翻译学习必备语料库



1

单语语料库


汉语语料库



1️⃣ BCC 语料库


BCC 语料库是以汉语为主、兼有其他语种的在线语料库,总规模达数百亿字,主要包括多语种单语语料库双语对齐语料库深加工的树库。BCC 检索式由字、词和语法标记等单元组成,并且支持通配符和离合查询。



▲BCC 语料库

http://bcc.blcu.edu.cn/


2️⃣ 北京大学 CCL 语料库


北京大学 CCL 语料库包括现代汉语古代汉语汉英句对齐平行语料,规模超过 7 亿汉字,语料选取的时间跨度从公元前 11 世纪延续至当代。CCL 语料库检索系统以包括汉字、字母、标点等在内的字符为基本索引单位,提供普通查询批量查询模式查询等多种检索方式。


CCL 语料库的分类检索功能十分详细,按照时间、体裁、作者、作品进行了具体分类,在高级查询下,使用者可以从特定时期某个作者的一部具体作品中进行检索。此外,在批量查询下,使用者可以上传个人语料进行检索。




▲北京大学 CCL 语料库

http://ccl.pku.edu.cn:8080/ccl_corpus


3️⃣语料库在线


语料库在线是一个非营利性学术网站,提供现代汉语和古代汉语语料库检索和语料库分析处理功能,包括分词和词性标注、汉语拼音标注、字词频率统计等功能。



▲语料库在线

http://corpus.zhonghuayuwen.org/


英语语料库




1️⃣ 美国当代英语语料库(COCA)


COCA——美国当代英语语料库是由美国 Brigham Young University 的 Mark Davies 教授开发的高达 3.6 亿词汇的美国最新当代英语语料库,是当今世界上最大的英语平衡语料库。与其它语料库不同的是它是免费在线供大家使用,给全世界英语学习者带来了福音,是不可多得的一个英语学习宝库,也是观察美国英语使用变化的一个绝佳窗口。


演示👇







▲左右滑动查看更多功能演示(COCA)

https://www.english-corpora.org//coca/


2️⃣ 英国国家语料库(BNC)


英国国家语料库(British National Corpus)是目前世界上非常有代表性的当代英语语料库之一,由英国牛津出版社、朗文出版公司、牛津大学计算机服务中心、兰卡斯特大学英语计算机中心以及大英图书馆等联合开发建立。以来源广泛的书面语和口语为样本,呈现了 20 世纪后期以来的英式英语。其中词容量超过一亿书面语90%口语10%



▲英国国家语料库(BNC)https://www.english-corpora.org/bnc/

注:BYU语料库系列,操作界面相似,但语料不同。


3️⃣ 世界网络英语语料库(GloWbE)

Mark Davies 提供的另一个语料库。它的语料来自 20 个英语国家180 万个网页,共有 19 亿个单词组成,其中既包括英语为母语的核心国家(如英国、美国),也包括英语为母语的其他国家(如印度、新加坡)。





▲左右滑动查看更多功能演示(GloWbE)

https://www.english-corpora.org/glowbe/



2双语/多语语料库


1️⃣ Glosbe


Glosbe 是一款面向国际社区的词典,号称支持世界上所有语言,并提供多国语言的双语例句,可供译者翻译时参考。该网页的例句来自联合国公开语料、字幕网站语料,或者由获得官方授权资质的用户上传。Glosbe 提供基于自身语料库研发的 Glosbe Translate,可以进行免费的文档翻译。



▲Glosbehttp://glosbe.com


2️⃣ Linguee


Linguee 与 Glosbe 类似,是一款提供多语查询的词典,目前支持 28 种语言互译,并提供丰富的双语例句。基于 Linguee 的语料库研发的机器翻译引擎 DeepL Translate 近年来备受关注,提供文本翻译和文件翻译,译文质量很高。



▲Lingueehttps://www.linguee.com/


3语料库资源网站

OPUS


OPUS 是一个开源平行语料库,提供多种语言的平行语料库文件格式下载,包括 TMX 文件、已标注的语料库文件和纯文本文件。




▲ 下载界面预览

OPUS 语料库由 70 多个不同领域和类型的子语料库可供用户下载,其中包括 The United Nations Parallel Corpus、TED Talks 2020、Wikipedia 等,语料资源仍在不断更新。




▲OPUS 子语料库https://opus.nlpl.eu/index.php



4 基于语料库的查询网站


1️⃣ WantWords


WantWords 反向词典由清华大学计算机系自然语言处理实验室(THUNLP)的 WantWords 研发团队开发,是一款开源在线的反向查词词典。用户可以通过输入描述来查找符合相关描述的词语、成语或习语。


2️⃣ Netspeak


Netspeak 是一个简单、高效的在线工具,能够通过数据直观展示各种词条搭配、单词组合甚至近义词替换,帮助使用者快速选取最地道、最常用的表达。


3️⃣ Reverso


Reverso,一款专业的在线翻译工具,目前包括 18 种语言的翻译功能,且支持语种仍在不断扩大。除语种丰富外,Reverso 的功能也十分多样,支持篇章及文档翻译、语法检查、拼写检查、词典检索、协作字典、常用法检索、近义词查询、词形变化查询等。基于大数据、技术算法等科技,Reverso 整合了大量语料,为用户的搜索结果保驾护航,为使用者提供最常见、最地道的翻译建议。


语料库种类、数量繁多,小编不再一一列举,仅根据分类介绍几款常用的语料库网站。大部分语料库网站提供使用说明,读者朋友们可以亲自去探索,每种类型的语料库只需掌握一两个,便足以满足一般翻译实践中的大部分需求。篇幅所限,垂直领域的语料库便不再赘述。


二、语料库常见用途一览


1️⃣ 英语学习者的第二大脑。练习写作、口语时,检索在线语料库,可直接获取某个词、短语、句子出现的频率、语境及搭配,方便逐字逐句地修改文章、说话细节,进一步提高自身写作、口语水平。阅读时,我们还可借助语料库检索工具(如 AntConc)对文本进行预分析,快速判断文章主题、写作风格、自己是否感兴趣等。
2️⃣ 英语教学者的第二素材库。翻译是实践的职业,翻译教学也类似。理论的教学需辅以大量的实践引导学生理解,大量实践又需大量实例予以支撑,要想获得原汁原味、与时俱进的例句素材,在线语料库是教学者的不二选择。教学者可通过关键词检索,快速获得所需例句,充实教学。
3️⃣ 翻译研究者的第二论据。翻译研究者可根据自己的研究目的,建立以真实语料为主的个性化语料库。研究者可将多个语篇或同一语篇的多个平行译文储存于语料库,利用语料库标注工具对其进行标注、分析,将大量数据系统化、科学化,有利于后期的检索调用。
4️⃣ 译员的第二词典库。语料库有助于译员译前理解和译中表达,用好语料库能够大大提升译者工作效率。语料库可以作为词典使用,包含纸质词典没有的用法和义项。在基于语料库编撰的词典中,义项的顺序是根据其使用频率安排的,因此往往比常规词典更容易找到所需含义。在翻译过程中,可以查询如何选择用词、词语如何搭配,表达是否地道。
5️⃣ 新闻记者的第二储存。新闻工作者撰写新闻稿时,辅以语料库,即可对相似新闻进行检索以及预处理,一方面可确保新闻的及时性,另一方面也为新闻工作者节省大量时间和精力,高效避免了部分重复工作。这点在实时新闻中应用广泛,如实时报道火山爆发、地震灾害等,可直接引用通用内容,再加以修改。



三、语料库的优点和不足


优点


客观性:语料库让人们可以更好地掌握语言发展规律。人们一般根据某个语言现象出现的频率是否达到特定数值来判定该现象是否符合规律。进入计算机时代,人们可以借助语料库对语言进行更大规模的抽样,这样计算出来的频率准确性自然会更高。


科学性:语料库天生具有的定量特性使基于语料库的研究更具科学性。


通用性:语料库本身是一种研究方法,可以对任何语言进行抽样。可以使用合理的抽样方法,对某个时期某一个人的语言、同一时期所有人的语言、某个人在所有历史时期的语言进行抽样。研究目的决定我们的抽样方法,而抽样之后,语料库的统计处理方法大致相同。


不足


语言是动态的、向前发展的,而大部分语料库一旦建成,便会凝固不动(动态更新的监控语料库除外),一段时间后便无法追踪语言发展的最新动向。


语料库通过对语言抽样反映其发展规律,但是语料库并非语言本身,在多大程度上进行抽样的语料库才能够准确反映语言发展呢?在全体语言和抽样的语料库之间需要达到一个平衡点,而动态发展的语言和静态的语料库之间不会永远存在这样一个平衡点。


总而言之,语料库既有优点也有缺点, 趋利避害才是我们在语言学习、翻译实践和研究中应该要秉承的原则。


//


未完待续



下期推送将带大家走进语料库在翻译实践中的具体运用,敬请期待。


主要参考文献

1. Nancy,“翻译领域资源与工具合集”,https://fanyi.news/resource#toc_12. 汪兴富,Mark Davies,刘国辉,“美国当代英语语料库(COCA) ———英语教学与研究的良好平台3. 王华树,“翻译技术学习资源”,https://ttv.cn/archives/105924. 荀恩东等,“大数据背景下BCC语料库的研制”,语料库语言学5. 俞敬松,“语料库的优缺点”,计算机辅助翻译原理与实践6. 詹卫东等,“北京大学CCL语料库的研制”,语料库语言学


- END -


编辑:张启雯 王琳

关注VX公众号“翻译技术教育与研究”、“语言服务行业”,了解更多语言服务行业与翻译技术相关的资讯和洞察~

三分钟科普|语料库初探(二)的评论 (共 条)

分享到微博请遵守国家法律