马哥2022全栈+爬虫+数据分析+AI
数据预处理的过程概括起来包括:数据审查、数据清理、数据转换、数据验证。
第一步:数据审查
该步骤检查数据的数量(记录数)是否满足分析的最低要求,变量值的内容是否与研究目的的要求一致,是否全面,包括利用描述性统计分析,检查各个变量的数据类型,变量值的最大值、最小值、平均数、中位数等,数据个数、缺失值和空值个数等。
第二步:数据清理
该步骤针对数据审查过程中发现的明显错误值、缺失值、异常值、可疑数据,选用合适的方法进行清理,同时也包括删除重复记录。
第三步:数据转换
数据分析强调分析对象的可比性,但不同变量值由于计量单位等不同,使得数据不可比,因此需要在数据分析前对数据进行变换,包括无量纲化处理、线性变换、汇总和聚集、适度概化、规范化以及属性构造等。
第四步:数据验证
该步骤的目的是初步评估和判断数据是否满足统计分析的需要,从而决定是否需要增加或减少数据量。可以利用简单的线性模型及散点图、直方图、折线图等图形进行探索性分析,利用相关分析、一致性检验等方法对数据的准确性进行验证,确保不把错误和有偏差的数据带入到数据分析模型中。