数据清洗的步骤包括 导入数据、去重、保留中文文本和导出数据。其中去重的目的是保留数据的多样性,而保留中文文本的作用是剔除掉无关文本。
那么我们首先看看待清洗数据的格式:
可以看到句子都保存在列text中,那么对于输出的数据而言格式一致。接下来上代码:
对于去重而言,所有数据都适合这一操作,而保留中文文本的操作可以视情况而定。