译技术 | 媒体语言语料库(MLC):传媒语言的聚宝盆
中国传媒大学有声媒体文本语料库是一个开放、免费使用的语料库,由中国传媒大学国家语言资源监测与研究有声媒体中心开发。该语料库2003年开始建设,2005年上线,其后不断扩大语料规模,一直为研究者提供免费服务。本语料库包括2008至2013六年的34,039个广播、电视节目的转写文本,总字符数为241,316,530个,总汉字数为200,071,896字次。所有文本都进行了分词和词性标注,共计135,767,884词次。为保证语料的典型性和代表性,每年都尽可能选择那些流通度大、年度间又有一定连续性的节目文本;为便于研究者做6年间的历时语言调查,各年度的语料规模尽可能平衡。
官网:https://ling.cuc.edu.cn/RawPub/
2. 图文教程
2.1 常规检索
首先打开网址,首页指向的是常规检索页。语料形式包括生语料与熟语料。检索结果的屏幕显示方式包括按字数、小句、句子和段落四种。检索结果关键字居中,高亮显示,两边的字数默认各是20,用户可以根据自己需要更改,也可以选择按小句或句子、段落的形式显示,检索结果保存的格式与此相同。“检索结果栏”将给出检索范围、语料规模以及检索结果。




2.1.1 生语料检索
即在生语料中进行关键词或字符串的简单检索。检索结果分页显示,每页显示40条。例如在检索输入框中输入“语言”,选择检索范围为“全部语料”,检索结果如下图所示:
点击每行记录后面的“查阅”,可浏览该记录所在的文本以及其单位、栏目、题目和时间。






点击每行记录后面的“查阅”,可浏览该记录所在的文本以及其单位、栏目、题目和时间。






2.1.2 熟语料检索
熟语料是经过分词和词性标注后的语料,以词为单位进行检索,输入检索项时,词与词之间要加空格,带词性检索时,词性前面要加“/”。比如要检索做名词的“关系”,需要输入“关系/n”。词与词性在输入时可以二选一,也可以都输入。比如输入“关系 /n”表示检索所有词性的“关系”后加名词的词串,输入“关系/v /n”,则表示检索动词“关系”后面加名词词串。以输入“关系/v /n”为例,选择检索范围为“中央”,检索结果如下图所示,同样可以进行查阅和导出。

2.2 高级检索
高级检索也包含生语料和熟语料两个模块。
2.2.1 生语料检索
生语料检索中包括成对字串检索、重叠检索和正则表达式检索,分别举例说明如下:1)成对字串检索



























2.2.2 熟语料检索
熟语料检索中包括组合检索、重叠检索和正则表达式检索,分别举例说明如下:1)组合检索

2)重叠检索






2)重叠检索





3. 学习心得
通过这次学习,我知道了媒体语言语料库(MLC)这一工具及使用方法。该语料库搜索功能齐全,包含的语料丰富,是一个实用的工具,但搜索用时较长,有时会出现卡顿现象。若要进行精细查找,用户首先需要学习并熟练使用正则表达式,这也是学习此工具中的一大难点。在翻译实践中,正确使用工具会起到事半功倍的效果。今后如果有媒体类文本的相关翻译任务,译者可以使用该语料库查找中文特定词语在上下文语境下的意义,以便翻译更准确。-END-
本文转载自:翻译学习共同体
作者:孙乐关注VX公众号“翻译技术教育与研究”、“语言服务行业”,了解更多语言服务行业与翻译技术相关的资讯和洞察~