欢迎光临散文网 会员登陆 & 注册

深度学习NLP大厂实训班

2023-02-26 14:36 作者:elyseedome  | 我要投稿

语料获取

语料的来源一般有:

(1)大厂公开的已经建立好的开放语料库;

(2)利用python等工具从网页上爬取的内容;

(3)公司自己的内部数据。

2、文本预处理

去除非文本信息,如网页上爬取来的一些标记符号,标点符号等;

分词,英文单词之间有间隔,因此很好区分开来,一般情况下只需要调用split()函数即可,但是中文单词之间没有间隔,需要首先进行分词处理,一般有基于规则和基于统计这两种方法。下面简单介绍一下这两种方法。


深度学习NLP大厂实训班的评论 (共 条)

分享到微博请遵守国家法律