保奖班09:数据预处理专项讲解

数据预处理 即使数据完整,也要有相应步骤

目录

数据存在的问题




国赛的数据处理不会占太大部分,一般是比较干净的

数据预处理的步骤:
🍒数据清洗
🍒数据集成
🍒数据归约(消减)
🍒数据变换(转换)



偏态分布转为正态分布
✨指数函数:右移
✨对数函数:左移

T检验,需要数据是正态的

数据清洗后,数据的数量级不一致会造成求解速度慢,一般在需要进行机器学习的时候会用到

最多的情况是缺失值和异常值

数据插补



回归方法不推荐,工作量大

插值法:拉格朗日插值法

牛顿插值法:




异常值处理

如何发现异常值:
1.3sigma原则

2. 箱线图


箱线图+散点图判断异常值




