欢迎光临散文网 会员登陆 & 注册

自然语言处理 02语料库与词汇知识库

2022-02-28 16:30 作者:你晗真好看  | 我要投稿

1.语料库与知识库定义?

语料库就是存放语言材料的仓库(语言数据库)

知识库是以描述性方法来存储和管理知识的机构,由知识和知识处理机构行成一个知识域。

2.什么是平行语料库?什么是平衡语料库?

平行语料库有两种含义,一种是指在同一种语言的语料上平行,例如“国际英语语料库”涵盖了不同国家的英语。其平行性表现为语料选取的时间、对象、比例、文本数、文本长度等几乎是一致的。建库的目的是对不同国家的英语进行对比研究。

另一种平行语料库是指在两种或多种语言之间的平行采样和加工,例如,机器翻译中的双语对齐语料库。

平衡语料库着重考虑语料的代表性与平衡性。语料采集的七项原则:语料的真实性、可靠性、科学性、代表性、权威性、分布性和流通性。其中语料的分布性还要考虑语料的科学领域分布、地域分布、时间分布和语体分布。

3.什么是共时语料库?什么是历时语料库?

共时语料库 是为了对语言进行共时(同一时段)研究而建立的语料库。研究大树的横断面所见的细胞和细胞关系,即研究一个共时平面中的元素与元素的关系。

历时语料库 是为了对语言进行历时研究而建立的语料库。研究一个历时切面中元素与元素关系的演化。

4.什么是熟语料库?什么是生语料库?

语料 指在自然语言单位上添加人工的标签标注,如经过分词、词性标注、命名实体识别、依存句法标注形成的语料)。

生语料 指直接收集而未经加工形成的语言资源集,如常见的微博语料,新闻语料等。

自然语言处理 02语料库与词汇知识库的评论 (共 条)

分享到微博请遵守国家法律