行业规范 | 语料库通用技术规范
转自中国翻译协会

引言
中国翻译协会是包括翻译与本地化服务、语言教学与培训、语言技术工具开发、语言相关咨询业务在内的语言服务行业的全国性组织。制定语言服务规范,推动行业有序健康发展,是中国翻译协会的工作内容之一。
随着中国的外商投资和对外直接投资进入新的阶段,以及国家“一带一路”倡议、经济文化“走出去”的进一步实施,请言服务特別是翻译成为了各项政策落地的关键点和瓶颈,传统的方式已经不能满足语言服务需求的迅猛增长,而基于人工智能神经网络技术的机器翻译正在快速发展,创新的人机融合语言服务模式正在悄然兴起,而语料库的研究、建设、交易和共享是其中的关键。建立一个既能服务于学术研究又能服务于语言服务和机器翻译的语料库通用技术规范将起到以下作用:
(1)响应“一带一路”倡议和经济文化“走出去”等国家大政方针,服务于国传、外宣、文化、经贸、安全等重大垂直领城,推进国家话语权和语言软实力建设;
(2)制定和落实语料库行业规范,可以在此基础上建立自主、可控的以中文为核心的语料共享和交易平台;
(3)倡导“安全语料大数据”,在充分尊重版权的前提下,以互联网思维和人工智能助力语言服务模式的变革。
语料库通用技术规范
1 适用范围
本规范描述并规定了语料库的建设与加工、管理与维护、交易与共享。关于语料库的其他规范将在之后以系列规范的形式予以发布。
通过实施本规范,语料库提供方可以证明其语料是否符合语料库规范,是否能够满足基本的语料使用要求;语料库使用方可以判断语料库是否能够用于某特定用途。
2 规范性引用文件
下列文件对本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文件,凡是不注日期的引用文件,其最新版本(包括所有的修改)适用于本文件。
GB/T 19682—2005 翻译服务译文质量要求
ISO 639 语种名称代码(Codes for the representation of names of languages)
ISO 3166 国家名称用语公报(Terminology bulletin—Country names)
3 术语和定义
下列术语和定义适用于本文件。
3.1 语料 text
语言材料或语言应用的样本
3.2 语料库 corpus
由依据一定抽样方法收集的自然出现的语料(3.1)所构成的电子数据库
注:是按照一定目的和方法进行选择并有序排列的数据汇集。
3.3 形符 token
语料库(3.2)中出现的所有词形
示例:go、goes、went、going为 4 个英语词形。
3.4 句对 sentence pair
一个完整的语句和与之内容对应的译文视为一个句对
注:句对可以是 n 对 n 的,这里的 n 为非负整数。
3.5 库容 size
语料库(3.2)的容量,即语料库的大小
注:面向学术研究的语料库(3.2)通常以形符(3.3)总数为单位来计算库容;面向人工智能和语言服务的语料库(3.2)通省以句对(3.4)为单位来计算库容。
3.6 语料采集 data capture
将收集到的不同介质语料(3.1)转写为可机读的格式或直接利用语料(3.1)现有的电子文本。
3.7 语料清洗 data cleaning
采用人工或计算机自动方式消除语料(3.1)中的乱码、多余回车、空格、空行等杂质的活动。
3.8 语料标注 text annotation
采用人工或计算机自动方式对语料(3.1)样本的属性或特征进行描述。
3.9 语料查重 duplicate checking
为避免重复加工,检查所采集语料(3.1)与已有语料(3.1)是否重复。
3.10 脱敏 desensitization
对语料(3.1)数据中某些敏感信息通过设定规则进行数据变形,用以保护这些敏感数据
注:当涉及违反法律法规的数据、客户安全数据或者一些商业性敏感数据时,在不违反系统规则的条件下,可对真实数据进行脱敏改造。
示例:身份证号、手机号、卡号、客户名称等信息都需要进行数据脱敏。
3.11 语料预处理 text pre-processing
在加工语料(3.1)之前进行文件格式/编码的转换、语料清洗(3.7)、语料查重(3.9)和脱敏(3.10)等技术处理
3.12 分词 word segmentation
将连续的字符序列切分成一个个单独的词
3.13 标注语言 annotated language
将文本以及文本相关的信息结合起来,展现出关于文档结构和数据处理细节的计算机编码
3.14 篇头信息标注 header marker-up
整篇语料(3.1)样本的属性说明
示例:语体、领城、标题、作者、作者性别、出版时间、来源出处和出版社等
3.15 篇体信息标注 body marker-up
对文本内部各种语言学属性的标注,包括词性标注、句法标注、语义标注、语用标注和语音标注等
3.16 语块 chunk
具有完整的意义且高频出现的大于单个词汇的语言现象
注:语块包括短语、词语搭配、习语等。语块不仅包括连续性短语结构,如“in the end”,也包括不连线的句子框架,如“不但……而且……”“not only…but also…”,还包括一些完整的句子,如“How do you do?”。
3.17 语料对齐 text alignment
在源语文本和目的语文本具体单位之间建立的对应关系,可分为词汇、语块、语句、段落和篇章等层面的对齐
3.18 正则表达式 regular expression
对包括普通字符和特殊字符在内的字符串进行描述的一种逻辑公式
注:用事先定义好的一些特定字符以及这些特定字符的组合,组成一个“规则字符串”,用来描述在搜索文本时要匹配的一个或多个字符串,可应用手对语料(3.1)的加工、检索等不同阶段。
3.19 副语言特征 paralinguistic feature
以视觉、听觉、嗅觉、味觉、触觉等感知为信息载体的符号系统
示例:韵律特征(语调、重音等)、突发性特征(说话时的笑声、哭泣声等)、次要发音(圆唇化音、鼻化音等)以及面部表情、视觉接触、体态、手势、谈话时双方的距离等。
3.20 生语料 raw text
未经任何技术处理的自然语料(3.1)
3.21 粗加工语料 roughly processed text
经语料清洗(3.7)或语料预处理(3.11)后能够进行基本检索和数据提取的语料(3.1)
3.22 精加工语料 finely processed text
根据特定语料库(3.2)建设目的,采用机器或人工手段进行语料标注(3.8)的语料(3.1)
注:这些标注包括语音标注、词性标注、句法标注、语义标注以及错误标注等篇体信息标注(3.15)。口语语料的标注还包括副语言特征(3.19)标注。
3.23 历时语料库 diachronic corpus
收录不同时间周期语料(3.1)的语料库(3.2)
3.24 共时语料库 synchronic corpus
收录相同时间周期语料(3.1)的语料库(3.2)
3.25 标注语料库 annotated corpus
经过标注处理的语料库(3.2)
3.26 非标注语料库 non-annotated corpus
未经标注处理的语料库(3.2)
3.27 通用语料库 general corpus
收录代表语言整体的语料(3.1)的语料库(3.2)
3.28 专门语料库 specialized corpus
收录代表某一语言的专门语体或专门领城语料(3.1)的语料库(3.2)
3.29 口语语料库 spoken corpus
收录口语语料(3.1)的语料库(3.2)
3.30 书面语语料库 written corpus
收录书面语语料(3.1)的语料库(3.2)
3.31 平行语料库 parallel corpus
收录某一语言文本和与之对应的翻译文本的语料库(3.2)
3.32 单语语料库 monolingual corpus
收录一种语言语料(3.1)的语料库(3.2)
3.33 口译语料库 interpreting corpus
根据口译音、视频材料制作的语料库(3.2),包括单语语料库(3.32)和平行语料库(3.31)
3.34 笔译语料库 translational corpus
收录书面翻译语料(3.1)的语料库(3.2),包括单语语料库(3.32)和平行语料库(3.31)
3.35 多语语料库 multilingual corpus
收录两种或两种以上具有翻译关系的语料(3.1)的语料库(3.2)
3.36 静态语料库 static corpus
由所选语料(3.1)构成的固定规模的语料库(3.2)
3.37 动态语料库 dynamic corpus
为考察某些语言变化而建设的不断更新的开放性语料库(3.2)
3.38 本族语者语料库 native-speaker's corpus
收录本族语者所产出语料(3.1)的语料库(3.2)
3.39 学习者语料库 learner's corpus
收录语言学习者所产出语料(3.1)的语料库(3.2)
3.40 单模态语料库 mono-modal corpus
收录音频、视频或文字材料之一种模态语料(3.1)的语料库(3.2)
3.41 名模态语料库 multi-modal corpus
收录音频、视频和文字材料等语料(3.1),并采用多模态方式加工、检索和统计的语料库(3.2)
4 建设与加工
4.1 语料库建设流程
语料库建设流程一般应包括话料库设计,语料采集,语料预处理,语料分词、标注,语料对齐、语料库生成、语料库管理与维护等步骤。其中:语料库设计、语料采集、语料预处理、语料库生成、语料库管理与维护为语料库建设的基本流程,语料分词、标注和语料对齐为可以选择进行的流程,语料库建设流程如图 1 所示。

图1 语料库创建流程图
4.2 语料库设计
语料库建设者对语料的规模、领域、体裁、语种、语料的加工程度以及语料的应用领域等相关参数进行设定。
4.3 语料采集
4.3.1 语料采集要求
语料库收录的语料应为真是语言环境下使用的语料,且应最大限度代表具体语言的实际应用。
4.3.2 语料采集方法
书面语料的采集主要包括人工输入、扫描输入以及现有电子文本的利用。口语语料的采集包括音频和视频材料等的获取和转写。
4.4 语料预处理
在对所采集话料进行加工之前,应进行语料清洗、语料查重和脱敏等方面的技术处理。
4.5 语料标注
4.5.1 语料标注内容
语料标注包括篇头信息标注和篇体信息标注。
4.5.2 标注语言的原则
4.5.2.1 通用性
语料库应采用适合于语料库软件的标注语言,或适合于编程语言的应用。
4.5.2.2 简洁性
语料库应功能完备、简单易用,适用于软件检索和扩充增容。
4.5.2.3 兼容性
语料库应适用于不同语料库检索软件和平台,允许跨平台进行语料的交换与共享。
4.6 语料对齐
以源语文本为基准,实现双语特定语言单位之间的对齐。语料对齐最常见的形式是句对齐,句对齐通常以句号、分号、问号和感叹号等标点符号作为语句的标记。
4.7 语料库生成
生成后的语料库应满足以下要求:
a)由加工后的语料构成;
b)可直接用于语料检索和数据分析;
c)提供关于语料库用途和库容以及语料的来源、领域和时间跨度等方面的信息;
d)语料版权必须清晰,不应存在版权纠纷。
5 管理与维护
语料库的管理与维护应根据设计要求,安排专人使用特定的工具定期进行操作,且应保留完整的管理、维护与更新文档。
6 交易与分享
6.1 语料的分类
a)根据语料加工程度可分为:
——生语料;
——粗加工语料;
——精加工语料;
b)根据语料对齐单位,双语语料可分为:
——篇章对齐语料:
——段落对齐语料:
——句对齐语料;
——语块对齐语料;
——词汇对齐语料。
6.2 语料库的分类
a)按语料选取的时间,可分为:
——历时语料库;
——共时语料库;
b)按语料的加工程度,可分为:
——标注语料库;
——非标注语料库;
c)按语料库代表的领域,可分为:
——通用语料库:
——专门语料库;
d)按语言传播媒介,可分为:
——口语语料库;
——书面语语料库;
e)按语言服务形式,可分为:
——笔译语料库;
——口译语料库;
f)按语料库中的语种,可分为:
——单语语料库;
——多语语料库;
g)按语料库的动态更新程度划分,可分为:
——静态语料库;
——动态语料库;
h)按语言产出者的身份,可分为:
——本族语者语料库;
——学习者语料库;
i)按语料保存的信息模态,可分为:
——单模态语料库;
——多模态语料库。
6.3 语料库描述
语料库描述内容见表 1。


6.4 语料库评价
6.4.1 评价维度语料和语料库的评价应遵循以下维度:
a)整体评价:语料库库容、语料范围、类型以及语料库的应用领域;
b)性能评价:语料库的应用效果以及对用户需求的满足程度;
c)语料评价:语料获取难易度、语料加工程度、语料质量和语料应用前景;
注:关于双语语料质量的评价详见附录 A。
d)效益评价:语料库为人工智能、语言服务和学术研究等方面提供服务所获得的社会效益和经济效益。
6.4.2 评价方法
6.4.2.1 概述
对语料质量的评价采用分类抽样方法,包括自动评价和人工评价,其中人工评价又包含专家评价和用户评价两种评价方法。
6.4.2.2 自动评价
采用自动化评价方法进行评价。 6.4.2.3 人工评价6.4.2.3.1 专家评价依据相关的技术指标,对语料库的设计、建设过程以及语料库类型、用途、性能和语料质量等方面进行评价。
6.4.2.3.2 用户评价
用户对话料库的功能、性能、可靠性和适用性等进行测试与评价。
6.4.3 评价流程
6.4.3.1 评价组织的建立
评价组织应由语料库相关领域专家和用户代表组成。
6.4.3.2 拟定评价计划
评价计划包括评价的目的、方法、参评人员、评价流程以及评价结果的应用等。
6.4.3.3 评价细则制定
根据语料库评价的原则和方法,制定评价标准和具体细则等文件。
6.4.3.4 评价的实施
根据语料库评价的标准和方法,组织专家和用户对语料库进行抽样、测试与评价。
6.4.3.5 评价报告的形成
根据专家和用户对语料库质量的评价结果,形成语料库评价报告。
6.4.3.6 评价结果的应用
根据语料库评价报告,语料库建设人员可对语料库进行调整、改进和补充,以提高其性能与效益。
6.5 语料库的价格与交付
6.5.1 价格
语料库的价格由交易或共享双方协商确定。建议根据以下因素进行综合考虑:
——语言对;
——领域;
——库容;
——对齐单位;
——格式;
——数据来源;
——评价结果;
——版权类型;
——脱敏程度;
——购买方免责声明;
——交付方式。
6.5.2 交付方式
语料库提供方应说明语料库产品交付给购买方的方式,主要方式包括:
a)文件,即语料库提供方将整个语料库文件交付给购买方;
b)API,即语料提供方提供 API 接口供购买方调用。
7 附录
附录A(资料性附录)双语平行语料参考评价标准
A.1 语料质量评价标准
语料质量由翻译质量、对齐质量和数据质量共同决定,其中翻译质量的权重f (1)最高,可设置在0.7以上;对齐质量权重f (2)及数据质量权重f (3)可根据实际情况设置在0~0.3之间,设置权重时应注意f (1)+f (2)+f (3)三项之和为1,语料质量计算:语料质量得分=翻译质量×f (1)+对齐质量×f (2)+数据质量×f (3)。
语料质量可划分为以下 5 个等级,相应得分见表 A.1。

A.2 语料翻译质量评价标准
语料翻译质量按 GB/T 19682—2005 中的译文综合差错率进行评价。
根据译文综合差错率将翻译质量划分为 5 个等级,不同等级对应不同得分,详见表 A.2。

A.3 语料对齐质量评价标准
语料对齐质量由双语句对的匹配程度(原文与译文在语义上匹配)以及对齐单位一致性(语料实际对齐单位与“对齐单位”字段的描述一致)决定,可分为 5 个等级,不同等级对应不同得分,详见表 A.3。

A.4 语料数据质量评价标准
语料数据质量评价标准由语料清洗程度及领域一致性(语料实际领域与“领域”字段的描述一致)决定,可分为 5 个等级。不同等级对应不同得分,详见表 A.4。

参考文献
[1] 中华人民共和国著作权法.
[2] GB 13715 信息处理用现代汉话分词规范.
[3] 胡开宝. 语料库翻译学概念[M]. 上海: 上海交通大学出版社, 2011.
[4] Berne Convention forthe Protection of Literary and Artistic Works.
[5] BAKER P. Querying keywords; questions of difference. frequency and sense in keywords analysis[J]. Journal of English Linguistics, 2004, 32(4): 346-359.
[6] SINCLAIR J. The searchfor units of meaning [J]. TEXTUS. 1996, 9(1): 75-106.
[7] SINCLAIR J. Corpus,concordance. collocation [M]. Oxford: Oxford University Press. 1991.
[8] STUBBS M. Twoquantitative methods of studying phraseology in English [J]. InternationalJournal of Corpus Linguistics, 2002. 7(2): 215-244.
转自中国翻译协会公众号
转载编辑:丁羽翔

本文来源于微信公众号“翻译技术教育与研究”、微信公众号“语言服务行业”,致力于语言服务行业资讯、洞察、洞见~ 关注我们,了解更多精彩内容~