欢迎光临散文网 会员登陆 & 注册

2023NLP项目实战班[第1期]

2023-07-10 10:59 作者:自爆鬼才比企谷  | 我要投稿

数据清洗 + 分词(系列标注任务)

数据语料清洗。我们拿到文本的数据语料(Corpus)后,通常首先要做的是,分析并清洗下文本,主要用正则匹配删除掉数字及标点符号(一般这些都是噪音,对于实际任务没有帮助),做下分词后,删掉一些无关的词(停用词),对于英文还需要统一下复数、语态、时态等不同形态的单词形式,也就是词干/词形还原。


分词。即划分为词单元(token),是一个常见的序列标注任务。对于英文等拉丁语系的语句分词,天然可以通过空格做分词,



对于中文语句,由于中文词语是连续的,可以用结巴分词(基于trie tree+维特比等算法实现最大概率的词语切分)等工具实现。

 

2023NLP项目实战班[第1期]的评论 (共 条)

分享到微博请遵守国家法律