黑马博学谷【季度铂金会员】JavaEE
符)是无关紧要的观察。这样的观察是无用的数据,可以直接删除。
(2) 修复数据集中的结构错误。
结构性错误是指测量和数据传输过程中的排字错误、相同的属性名称不同、标签类型不正确、大小写不一致等。例如,模型应处理大写的拼写错误和不一致(如“BBBb”和“BBBB”) ") 作为同一类别,而不是两个不同的类别。
(3) 处理丢失的数据。
收集到的数据中的一件重要事情是“缺失数据”。数据集中的缺失值不能简单地忽略,缺失的数据必须以某种方式处理。比如删除有缺失值的观察或根据过去或其他观察估计缺失值。
Python 数据分析
Python 语言数据分析库目前非常广泛,从科学计算领域的 Numpy 和 Scipy