技术科普 | BCC汉语语料库:多领域语料数据库
以下文章来自:翻译学习共同体
声明:转载仅供参考,如有侵权请联系删除。
1. 工具简介
BCC汉语语料库是由北京语言大学语言智能研究院研发的通用单语语料库。汉语语料库总字数95亿字,涵盖了报刊、文学、对话、微博、科技、综合和古汉语等多领域语料,是可以全面反映当今社会语言生活的大规模熟语料库。BCC语料库包括了生语料、分词语料、词性标注语料和句法树,已对现代汉语的语料进行词性标注。BCC汉语语料库页面清晰简洁,功能丰富,检索分为词典与汉语两个版块,在词典检索版块,呈现词典释义、搭配拓展、义项频率,在汉语搜索版块具有简单检索、历时检索、自定义检索、对比检索四大功能;检索结果呈现方式清晰明了,或柱状图、折线图、饼状图,直观反映数据结果,方便使用者的后续研究与对比。
官网:http://bcc.blcu.edu.cn/lang/zh
2. 图文教程
进入BCC汉语语料库官网页面后,使用者会看到如下图所示的的界面,该界面的上方菜单栏从左到右依次是:[词典]检索功能版块、[汉语]检索功能版块、[登录]键、[注册]键、[帮助]键;界面下方从左到右依次是[新闻]区、[搜索示例]区、[下载]区,以便使用者更好了解BCC语料库,更加高效地利用检索式搜索到所需内容。





2.1 词典检索功能
用户点击初始界面左上方的[词典]键,就会进入如下界面。
在该界面可以看到上方呈现搜索框,下方呈现汉语、拼音、笔画、部件查询模块,呈现各部分的统计信息图,如下图所示:



在词典查询框旁,用户可以选择按字查询或按拼音查询。用户选择按字查询后,可以根据自己的检索需求输入汉字,输入后,点击[检索]键,页面就会呈现检索结果。需要注意的是,在使用按字检索功能时,下方的查询模块必须勾选汉字模块,否则检索结果出现错误。比如在搜索框输入“和”这个汉字,含有"和"的词典条目就会显示,如下图所示:
点击块状区域跳转到具体条目,呈现词语的词典释义、搭配拓展、义项频率,在搭配拓展区域的左上角处,可以选择词语的左邻词与右邻词,以及具体的名词、动词、形容词,在搭配拓展区域以及义项频率区域的右上角处,可以选择切换为数据视图、折线图、柱状图,并可以进行保存。在本次示例中,选择“和平”这一条目,其词典释义、搭配拓展、义项频率具体如下:


用户选择按拼音查询后,可以根据自己的检索需求输入汉字拼音,声调用“1-5”表示,输入后,点击[检索]键,页面就会呈现检索结果。如在检索框输入“he2”后,含有"he2"的词典条目就会显示,点击块状区域跳转到具体条目,如图所示:
选择“和”这一条目,界面就会呈现其词典释义、搭配拓展、义项频率,同样在搭配拓展区域的左上角处,可以选择词语的左邻词与右邻词,以及具体的名词、动词、形容词,在搭配拓展区域以及义项频率区域的右上角处,可以选择切换为数据视图、折线图、柱状图,并可以进行保存,具体如下:



在该界面可以看到上方呈现搜索框,下方呈现汉语、拼音、笔画、部件查询模块,呈现各部分的统计信息图,如下图所示:




在词典查询框旁,用户可以选择按字查询或按拼音查询。用户选择按字查询后,可以根据自己的检索需求输入汉字,输入后,点击[检索]键,页面就会呈现检索结果。需要注意的是,在使用按字检索功能时,下方的查询模块必须勾选汉字模块,否则检索结果出现错误。比如在搜索框输入“和”这个汉字,含有"和"的词典条目就会显示,如下图所示:

点击块状区域跳转到具体条目,呈现词语的词典释义、搭配拓展、义项频率,在搭配拓展区域的左上角处,可以选择词语的左邻词与右邻词,以及具体的名词、动词、形容词,在搭配拓展区域以及义项频率区域的右上角处,可以选择切换为数据视图、折线图、柱状图,并可以进行保存。在本次示例中,选择“和平”这一条目,其词典释义、搭配拓展、义项频率具体如下:



用户选择按拼音查询后,可以根据自己的检索需求输入汉字拼音,声调用“1-5”表示,输入后,点击[检索]键,页面就会呈现检索结果。如在检索框输入“he2”后,含有"he2"的词典条目就会显示,点击块状区域跳转到具体条目,如图所示:

选择“和”这一条目,界面就会呈现其词典释义、搭配拓展、义项频率,同样在搭配拓展区域的左上角处,可以选择词语的左邻词与右邻词,以及具体的名词、动词、形容词,在搭配拓展区域以及义项频率区域的右上角处,可以选择切换为数据视图、折线图、柱状图,并可以进行保存,具体如下:



2.2 汉语检索功能
用户点击初始界面左上方的[汉语]键,就会进入如下界面。




2)历时检索进入汉语检索版块后,用户点击[历时检索]按钮,进入以下界面。

3)自定义检索进入汉语检索版块后,用户点击[自定义]按钮,进入以下界面。

4)对比检索进入汉语检索版块后,用户点击[搜索]按钮旁的[对比]按钮,呈现以下界面。










2)历时检索进入汉语检索版块后,用户点击[历时检索]按钮,进入以下界面。


3)自定义检索进入汉语检索版块后,用户点击[自定义]按钮,进入以下界面。


4)对比检索进入汉语检索版块后,用户点击[搜索]按钮旁的[对比]按钮,呈现以下界面。






3. 学习心得
就翻译实践而言,BCC汉语语料库具有多重好处。首先,BCC 汉语语料库拥有丰富语料资源,涵盖了报刊、文学、对话、微博、科技、综合和古汉语等多领域语料,为翻译实践提供多种语料来源与文章语境,方便译者的翻译实践操作;其次,BCC汉语语料库拥有海量数据,如历时检索结果的海量数据可以验证术语准确性;最后,BCC汉语语料库功能丰富,通过多种功能的语料库检索, 能够验证词汇的搭配组合的典型性, 发现合适的搭配词汇,避免译者的主观性推断,有助于提高翻译质量。经过本次学习,笔者更加深刻地了解到了BCC汉语语料库的优势与特点,在后续的翻译学习与翻译实践中将继续使用BCC汉语语料库辅助翻译实践,提高翻译质量与效率,提升译文的可读性。
关注VX公众号“翻译技术教育与研究”、“语言服务行业”,了解更多语言服务行业与翻译技术相关的资讯和洞察~