欢迎光临散文网 会员登陆 & 注册

数据处理之插值添补缺失值

2023-05-03 10:32 作者:tevop2000  | 我要投稿

    缺失值插补一般使用在建模过程当中,由于很多模型无法处理NaN,我们如果不对一些字段进行插补,很可能要删除过多数据;所以我们采用插补的方式尽可能的保留数据集的信息,而缺点就是带入了“人造数据”。

    插补的关键在于:尽量在不破坏数据原始分布的情况下保留信息。所以,插补是当数据量不足的时候采用的,如果是数据量充足,删除缺失值即可;插补中我们要少带入人造信息,所以当数据近似正态分布的时候一般选择平均值Mean。

我们介绍几类常见的处理差补法的方法:

1. 固定值

2. 均值

3. 众数

4. 中位数

1. 固定值

用固定值,比如80来填充体育的的NaN值。


知识点:

pandas中fillna()方法,能够使用指定的方法填充NA/NaN值。

1.函数详解

函数形式:fillna(value=None, method=None, axis=None, inplace=False, limit=None, downcast=None, **kwargs)

参数:

value:用于填充的空值的值。

method: {‘backfill’, ‘bfill’, ‘pad’, ‘ffill’, None}, default None。定义了填充空值的方法, pad / ffill表示用前面行/列的值,填充当前行/列的空值, backfill / bfill表示用后面行/列的值,填充当前行/列的空值。

axis:轴。0或’index’,表示按行删除;1或’columns’,表示按列删除。

inplace:是否原地替换。布尔值,默认为False。如果为True,则在原DataFrame上进行操作,返回值为None。

limit:int, default None。如果method被指定,对于连续的空值,这段连续区域,最多填充前 limit 个空值(如果存在多段连续区域,每段最多填充前 limit 个空值)。如果method未被指定, 在该axis下,最多填充前 limit 个空值(不论空值连续区间是否间断)

downcast:dict, default is None,字典中的项为,为类型向下转换规则。或者为字符串“infer”,此时会在合适的等价类型之间进行向下转换,比如float64 to int64 if possible。


2. 均值

用均值来填充体育的的NaN值。

知识点:

mean(): 返回数据的均值。使用DataFrame数据调用mean()函数,返回结果为DataFrame中每一列的平均值,mean()不能计算字符串或object的平均值,所以会自动将不能计算的列省略。

3. 众数

    用众数插补缺失值。

 

知识点:

众数(Mode)是指在统计分布上具有明显集中趋势点的数值,代表数据的一般水平。 也是一组数据中出现次数最多的数值,有时众数在一组数中有好几个。

4. 中位数


用中位数插补缺失值。

知识点:

中位数(Median)又称中值,统计学中的专有名词,是按顺序排列的一组数据中居于中间位置的数,代表一个样本、种群或概率分布中的一个数值,其可将数值集合划分为相等的上下两部分。对于有限的数集,可以通过把所有观察值高低排序后找出正中间的一个作为中位数。如果观察值有偶数个,通常取最中间的两个数值的平均数作为中位数。

 



数据处理之插值添补缺失值的评论 (共 条)

分享到微博请遵守国家法律