欢迎光临散文网 会员登陆 & 注册

大数据开发 | SparkSQL 如何去重重复值?

2023-03-20 15:18 作者:ingemar-  | 我要投稿

前面我们处理的数据实际上都是已经被处理好的规整数据,但是在大数据整个生产过程中,需要先对数据进行数据清洗,将杂乱无章的数据整理为符合后面处理要求的规整数据。


去重方法 dropDuplicates


功能:对DF的数据进行去重,如果重复数据有多条,取第一条


删除有缺失值的行方法  dropna

功能:如果数据中包含null,通过dropna来进行判断,符合条件就删除这一行数据


填充缺失值数据 fillna


功能:根据参数的规则,来进行null的替换


大数据开发 | SparkSQL 如何去重重复值?的评论 (共 条)

分享到微博请遵守国家法律