深度学习NLP大厂实训班
2023-02-26 14:36 作者:elyseedome | 我要投稿
语料获取
语料的来源一般有:
(1)大厂公开的已经建立好的开放语料库;
(2)利用python等工具从网页上爬取的内容;
(3)公司自己的内部数据。
2、文本预处理
去除非文本信息,如网页上爬取来的一些标记符号,标点符号等;
分词,英文单词之间有间隔,因此很好区分开来,一般情况下只需要调用split()函数即可,但是中文单词之间没有间隔,需要首先进行分词处理,一般有基于规则和基于统计这两种方法。下面简单介绍一下这两种方法。