【活动回顾】韩林涛:双语语料系统搭建与应用
人工智能时代翻译技术第四讲,北京语言大学韩林涛老师讲解了【双语语料系统搭建与应用】,本次活动韩老师为大家详细地介绍了如何搭建一个在线双语平行语料库,跟随小编一起回顾下本节课程的精彩内容吧~
本节课程主要内容包括:
1、语料数据加工技术和建设
2、BiCorpus语料库搭建
3、如何采集和对齐语料
Q何谓“在线”双语平行语料库?A: 我们来看这样一个场景:新冠肺炎疫情到来时,许多单位都开始翻译大量的与疫情相关的资料,大家夜以继日的翻译,花费了很多时间,但毕竟是一个新的领域,涉及许多新的术语和表述,所以这些单位可能会各自为战,在这些新内容的翻译上投入大量的精力,但实际上,假如能够有一个在线的公开的网站允许大家上传自己已经翻译完成的双语资料,那么这些单位就可以共享手中宝贵的双语数据,减少重复劳动。
一、语料数据加工技术和建设
首先,韩老师通过演示为大家讲解了数据库的增删改查功能是如何实现的,这里引入了一个新的概念:SQL。那么,何为SQL呢?SQL ,全称Structured Query Language,中文解释为结构化查询语言 是用于管理关系数据库管理系统(RDBMS)。SQL 让您可以访问和处理数据库,包括数据插入、查询、更新和删除。接着韩老师还细致地讲解了双语预料库使用怎样的方式储存?双语语料库如何加工?通过以上知识我们知道,我们可以把语料存储到XML中,平行语料可以存储到TMX中,然后再上传至关系型数据库进行增删改查。市面上有很多工具可以做到这一点,有桌面端的,也可以网页端,有收费的,也有开源的。
二、BiCorpus 语料库搭建
接着上一个话题,韩老师介绍了BiCorpus。BiCorpus是一款开源语言资产管理平台,一个可用于搭建在线平行句库的开源工具,致力于让每一位译者拥有自己的在线语料库。韩老师形象生动地为学员解释了BiCorpus工作原理,让师友们更好地理解其功能。通过老师的讲解答疑,学员们了解到如何运用BiCorpus自建语料库,极大提高了未来翻译实践和翻译研究的工作效率。
接下来韩老师就【如何采集和对齐语料】这个问题进行了详细地解答,韩老师表示,目前国内外的各种对齐工具里,Abbyy Aligner和TMXmall Aligner是最值得选用的。BiCorpus对语种代码非常在意,上面两种对齐工具生成的翻译记忆文件内含的语种代码与BiCorpus 是一致的。有许多工具都可以支持本地的语料管理,BiCorpus最大的不同就是在线管理,而且如果学会一些编程技巧的话,还可以实现定制。
以上就是“人工智能时代翻译技术寒假集训营”第四讲的干货啦,希望大家收获满满!