NLP大厂实训班5期
深度之眼学习笔记—— NLP基础知识
在文本数据上执行的一些基本操作
1 使用正则表达式进行文本搜索
正则表达式:对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。
给定一个正则表达式和另一个字符串,我们可以达到如下的目的:
1. 给定的字符串是否符合正则表达式的过滤逻辑(称作“匹配”)
2. 可以通过正则表达式,从字符串中获取我们想要的特定部分。
2 将文本转化为列表
可以读取一个文本文件并根据需要将其转化为一列单词或句子。
3 文本预处理
方式:
1、将一个单词替换为另一个单词;
2、删除或添加某些特定类型的单词;