大数据开发 | SparkSQL 如何去重重复值?
前面我们处理的数据实际上都是已经被处理好的规整数据,但是在大数据整个生产过程中,需要先对数据进行数据清洗,将杂乱无章的数据整理为符合后面处理要求的规整数据。
去重方法 dropDuplicates
功能:对DF的数据进行去重,如果重复数据有多条,取第一条
删除有缺失值的行方法 dropna
功能:如果数据中包含null,通过dropna来进行判断,符合条件就删除这一行数据
填充缺失值数据 fillna
功能:根据参数的规则,来进行null的替换
