技术科普 | BCC汉语语料库:紧跟时代潮流的语料检索平台
1. 工具简介
北京语言大学语料库中心(BLCU Corpus Center,简称BCC)是以汉语为主、兼有英语和法语的在线语料库,是服务语言本体研究和语言应用研究的在线大数据系统。BCC语料库总字数约 150 亿字,包括报刊(20 亿)、文学(30 亿)、微博(30 亿)、科技(30 亿)、综合(10 亿)和古汉语(20 亿)等多领域语料,是可以全面反映当今社会语言生活的大规模语料库。BCC语料库具有数据量大、领域广和检索便捷等优点。目前,已经支持了百余篇论文的发表。
2. 图文教程
BCC汉语语料库网址:

2. 图文教程
2.1 基本检索流程
1)在搜索框里输入要检索的词汇或语句,可以选择“多领域”“文学”“报刊”“对话”“篇章检索”“古汉语”“历时检索”或“自定义”。如输入“美丽的”。点击“搜索”键,可以在单句范围内,检符合检索式的语言片段。











2.2 历时检索
1)点击“历时检索”,输入“美丽的”,检索结果可以看到检索式历年的出现频次和频率,可以切换为柱状图、折线图两种显示方式。













2.3 BCC检索式
1)下图为一些常见的检索式示例。



3. 学习心得




1)在首页下方,还可以看见“新闻”“搜索示例”“下载”选项。



3. 学习心得
BCC汉语语料库以汉语为主,兼有其他语种的语言大数据;为语言本体研究提供在线检索系统;为语言本体研究提供建构大数据的语言应用平台;支持云服务;通过API调用方式为开展知识抽取、模型构建提供便利。不仅为汉语言爱好者提供便捷专业的检索途径,也对从事中译外的译者及对外汉语教师提供了多角度,具有时效性的检索结果。同时,该检索工具帮助使用者们掌握更为细化的检索方式,提高了使用学习者们的搜索技能。综上,BCC汉语语料库值得大家研究学习。
参考资料
[1]BCC汉语语料库官网-帮助栏[2]肖丹、马路遥BCC语料库 | 世界语言资源平台
作者:杨惠钧
编校:阿之
注:学习作品,仅供参考,欢迎指正。