从洋务运动到节能减排:BCC历时语料库检索扩容上新!
本文转载自:汉语堂
从19世纪末的洋务运动到21世纪初,中国的社会和语言经历了剧变。连续发行的报纸,是从内容和语言上观测社会变迁的重要切口。北京语言大学基于《申报》和《人民日报》数据建立了自1872年至2015年的中国历时报刊语料库(BCC历时语料库,http://bcc.blcu.edu.cn/hc,或点击阅读原文)。该时段覆盖了现代汉语书面语由孕育到成熟的关键阶段。其中《申报》语料库包含1872年到1945年,共77年跨度,共8600万词。《人民日报》为1946年到2015年。语料库经过数据清洗、分词规范制定、标注平台构建、命名实体识别等语料准备工作后,进行了全文检索和格式化检索索引构建,形成了近代中文报纸语料库,并提供在线开放查询服务。语料库立足语言数据和语言学标注,以探索现代汉语书面语形成的路径为直接目标,并将进一步服务历史学、新闻学和数字人文研究。
相比于之前BCC历时检索仅采用《人民日报》二战后数据,新版扩容的BCC纳入了中国最早发行的现代商业报纸《申报》。《申报》语料库规模如下图所示:
基于《申报》时间长、内部特征复杂的特点,参考了现有的一些分词规范,分词规范采用初步方案尽量适应不同时期汉语的特点,适用于近代汉语、近代汉语向现代汉语逐渐演变以及最终现代汉语成型这所有的时期。出于对人文研究的兼容性,在分词上在确保“规范内部一致”的前提下,突出了“大词”的观念,切分细化同时保证意义完整,并依此制定了相应的分词规范。突出“大词”是指人名、地名、组织机构名、科学术语和专名等一般划为一个分词单元。“规范内部一致”是指将由音节数造成的分词处理方式不一致的地方全部归一。如代词和后接成分均分开,不受后接成分音节影响(“每/天”“每/分钟”均分开),而“所”字后加动词需要切分。“大词”以外的词语切分充分考虑不同时期的不同词语的特点,在保证意义完整的前提下,进行细致地切分。如数词不进行切分,“三分之二”等,保证其意义完整;而副词后接动词的状中结构以及述宾、动结、动趋式离合词等则要进行切分,是尽量保证切分精细,更加全面体现词语的变化。分词规范的具体内容则包括了命名实体(人名、地名、组织机构名)、术语和专名、数词和数量短语、时间词、代词、附加、复合、虚词、离合词、成语和熟语这十个方面,从词语的意义、构词方式以及词汇的分类方式多个角度出发,确定了适应于《申报》的分词规范。
精彩案例
扩容后的BCC历时检索继续支持通配符和字符串混合检索,对比检索等。由于《申报》没有词性,因此只能查到1946年后通配符带词性的话,1872-1946年内只能用字符串来查。
“人民”(蓝色)和“群众”的对比
“生产”(红色)和“建设”的对比
“学堂”和“学校”(红色)的对比
“嘿”(蓝色)和“嗨”的对比
语料中它们作为叹词出现大概分别在1931年和1933年左右,年代相当,之前都是其他含义。
外来词“沙发”
出现于1882年,发展变化显著。
金观涛先生曾讨论过的著名例子“天下”(红色)与“世界”
使用通配符检索“吃.*饭”(红色)和“用.*餐”
如果你对其中一者感兴趣,还可以点击折线或立柱查看当年的具体语料。
注:当然,在两个表达式进行对比检索的时候,点击折线这能显示其中一者的具体语料,如需查看请对两者分别进行检索。
-END-
关注VX公众号“翻译技术教育与研究”、“语言服务行业”,了解更多语言服务行业与翻译技术相关的资讯和洞察~