欢迎光临散文网会员登陆 & 注册

2023NLP项目实战班[第1期]

2023-07-10 10:59 作者:自爆鬼才比企谷 0人读过 | 我要投稿

数据清洗 + 分词（系列标注任务）

数据语料清洗。我们拿到文本的数据语料(Corpus)后，通常首先要做的是，分析并清洗下文本，主要用正则匹配删除掉数字及标点符号（一般这些都是噪音，对于实际任务没有帮助），做下分词后，删掉一些无关的词（停用词），对于英文还需要统一下复数、语态、时态等不同形态的单词形式，也就是词干/词形还原。

分词。即划分为词单元（token），是一个常见的序列标注任务。对于英文等拉丁语系的语句分词，天然可以通过空格做分词，

对于中文语句，由于中文词语是连续的，可以用结巴分词（基于trie tree+维特比等算法实现最大概率的词语切分）等工具实现。

标签：

2023NLP项目实战班[第1期]的评论 (共条)