欢迎光临散文网会员登陆 & 注册

Python之Pandas数据清洗

2023-06-01 21:57 作者:乒乒乓乓乒乒乓乓呀 0人读过 | 我要投稿

# 导入pandas模块，别名为pd

import pandas as pd

# 声明一组测试数据data

data = {

'姓名':['Jack','Tom','Tim','Tac','Tes'],

'班级':['A','B','C','D','E'],

'分数':[88,68,50,30,25]

}

df = pd.DataFrame(data)

df

#获取指定行

row = df.loc[2]

#获取多行

duorow = df.loc[1:3]

#获取不连续的多行

jiangerow = df.loc[[1,3]]

#筛选，过滤符合条件的数据

shaixuanrow = df.loc[df['RQ']<'2022-01-01']

#获取指定列

column = df['XM']

#获取多列

dcolumn = df[['XM','RQ']]

#获取指定值

value = df.iloc[1,2]

#判断指定列中是否存在该值

is_in_list = df['XM'].isin([value])

#获取前两行

df1 = df.head(2)

#获取后两行

df2 = df.tail(2)

#获取数据信息

info_data = df.info()

#获取数据的描述信息，例如mean(平均值)

msxx = df.describe()

# 删除缺失值所在行

df = df.dropna()

#使用平均值替换缺失值

d = df['C'].describe()['mean']

df = df.fillna(d)

#删除重复行

df = df.drop_duplicates()

#替换数据值

df = df.replace(4,3)

#对指定列进行升序排序

df = df.sort_values(by='C',ascending=True)

#对指定列进行降序排序

df = df.sort_values(by='C',ascending=False)

#分组统计

df = df.groupby('A')['C'].count()

标签：

Python之Pandas数据清洗的评论 (共条)