欢迎光临散文网 会员登陆 & 注册

自然语言处理实用教程 | 数据清洗 | 2023年版

2023-09-08 23:11 作者:AI日日新  | 我要投稿

        数据清洗的步骤包括 导入数据、去重、保留中文文本和导出数据。其中去重的目的是保留数据的多样性,而保留中文文本的作用是剔除掉无关文本。

        那么我们首先看看待清洗数据的格式:

        可以看到句子都保存在列text中,那么对于输出的数据而言格式一致。接下来上代码:

        对于去重而言,所有数据都适合这一操作,而保留中文文本的操作可以视情况而定。

自然语言处理实用教程 | 数据清洗 | 2023年版的评论 (共 条)

分享到微博请遵守国家法律