欢迎光临散文网 会员登陆 & 注册

Python之Pandas数据清洗

2023-06-01 21:57 作者:乒乒乓乓乒乒乓乓呀  | 我要投稿

# 导入pandas模块,别名为pd

import pandas as pd 

# 声明一组测试数据data

data = {

    '姓名':['Jack','Tom','Tim','Tac','Tes'],

    '班级':['A','B','C','D','E'],

    '分数':[88,68,50,30,25]  

}

df = pd.DataFrame(data)

df


#获取指定行

row = df.loc[2]

#获取多行

duorow = df.loc[1:3]

#获取不连续的多行

jiangerow = df.loc[[1,3]]

#筛选,过滤符合条件的数据

shaixuanrow = df.loc[df['RQ']<'2022-01-01']

#获取指定列

column = df['XM']

#获取多列

dcolumn = df[['XM','RQ']]

#获取指定值

value = df.iloc[1,2]

#判断指定列中是否存在该值

is_in_list = df['XM'].isin([value])

#获取前两行

df1 = df.head(2)

#获取后两行

df2 = df.tail(2)

#获取数据信息

info_data = df.info()

#获取数据的描述信息,例如mean(平均值)

msxx = df.describe()

# 删除缺失值所在行

df = df.dropna()

#使用平均值替换缺失值

d = df['C'].describe()['mean']

df = df.fillna(d)

#删除重复行

df = df.drop_duplicates()

#替换数据值

df = df.replace(4,3)

#对指定列进行升序排序

df = df.sort_values(by='C',ascending=True)

#对指定列进行降序排序

df = df.sort_values(by='C',ascending=False)

#分组统计

df = df.groupby('A')['C'].count()


Python之Pandas数据清洗的评论 (共 条)

分享到微博请遵守国家法律