欢迎光临散文网会员登陆 & 注册

大数据开发 | SparkSQL 如何去重重复值？

2023-03-20 15:18 作者:ingemar- 0人读过 | 我要投稿

前面我们处理的数据实际上都是已经被处理好的规整数据，但是在大数据整个生产过程中，需要先对数据进行数据清洗，将杂乱无章的数据整理为符合后面处理要求的规整数据。

去重方法 dropDuplicates

功能：对DF的数据进行去重，如果重复数据有多条，取第一条

删除有缺失值的行方法 dropna

功能：如果数据中包含null，通过dropna来进行判断，符合条件就删除这一行数据

填充缺失值数据 fillna

功能：根据参数的规则，来进行null的替换

标签：科技猎手每天加点技能分编程开发大数据开发免费教程编程学习程序员的日常计算机技术 Python spark

大数据开发 | SparkSQL 如何去重重复值？的评论 (共条)