欢迎光临散文网 会员登陆 & 注册

中文词向量资源导航

2022-04-23 13:51 作者:跨象乘云  | 我要投稿

项目地址

https://github.com/Embedding/Chinese-Word-Vectors

本项目提供超过 100 种中文词向量,其中包括不同的表示方式(稠密和稀疏)、不同的上下文特征(词、N 元组、字等等)、以及不同的训练语料。获取预训练词向量非常方便,下载后即可用于下游任务。此外,项目还提供了中文词类比任务数据集 CA8 和配套的评测工具,以便对中文词向量进行评估。所有的预训练词向量文件均为文本格式。每一行都包括一个词和它对应的词向量。所有的值均用空格分开。每个文件的第一行记录了基本信息:第一个数值是文件中总词数,第二个数值是向量维度。除了稠密的词向量(用 SGNS 方式训练的),我们也提供了稀疏的词向量(用 PPMI 方式训练的)。稀疏的词向量格式同 liblinear 中的一样,以 位置:数值 的方式存储。

对于国内自然语言处理的研究者而言,中文词向量语料库 是需求很大的资源。近日,来自北京师范大学中文信息处理研究所与中国人民大学 DBIIR 实验室的研究者开源了「中文词向量语料库」,试图为大家解决这一问题,该库包含经过数十种用各领域语料(百度百科、维基百科、人民日报 1947-2017、知乎、微博、文学、金融、古汉语等)训练的词向量,涵盖各领域,且包含多种训练设置。目前,该研究的论文《Analogical Reasoning on Chinese Morphological and Semantic Relations》已经被 ACL2018 大会接收。

参考文献

如果使用了本项目的词向量和 CA8 数据集请进行如下引用:

Shen Li, Zhe Zhao, Renfen Hu, Wensi Li, Tao Liu, Xiaoyong Du, Analogical Reasoning on Chinese Morphological and Semantic Relations, ACL 2018.

Word2vec / Skip-Gram with Negative Sampling (SGNS)

所有的预训练词向量文件均为文本格式。每一行都包括一个词和它对应的词向量。所有的值均用空格分开。每个文件的第一行记录了基本信息:第一个数值是文件中总词数,第二个数值是向量维度。

除了稠密的词向量(用 SGNS 方式训练的),项目也提供了稀疏的词向量(用 PPMI 方式训练的)。稀疏的词向量格式同 liblinear 中的一样,以 “位置:数值” 的方式存储。

词向量调用演示代码

个人用户请微信搜索【跨象乘云】公众号(kxcy_ai)或扫描下方二维码,关注后发送关键字【220503】,免费获取视频内代码与数据集。跨象乘云™ 原创实验演示视频内全部代码、数据集仅授权予个人用户学习与实验使用。禁止用于二次销售、分发传播、课堂教学及培训用途。校企用户采购请通过公众号菜单【了解我们】->【商务合作】联系。

跨象乘云公众号:kxcy_ai


中文词向量资源导航的评论 (共 条)

分享到微博请遵守国家法律