Python之Pandas数据清洗
# 导入pandas模块,别名为pd
import pandas as pd
# 声明一组测试数据data
data = {
'姓名':['Jack','Tom','Tim','Tac','Tes'],
'班级':['A','B','C','D','E'],
'分数':[88,68,50,30,25]
}
df = pd.DataFrame(data)
df
#获取指定行
row = df.loc[2]
#获取多行
duorow = df.loc[1:3]
#获取不连续的多行
jiangerow = df.loc[[1,3]]
#筛选,过滤符合条件的数据
shaixuanrow = df.loc[df['RQ']<'2022-01-01']
#获取指定列
column = df['XM']
#获取多列
dcolumn = df[['XM','RQ']]
#获取指定值
value = df.iloc[1,2]
#判断指定列中是否存在该值
is_in_list = df['XM'].isin([value])
#获取前两行
df1 = df.head(2)
#获取后两行
df2 = df.tail(2)
#获取数据信息
info_data = df.info()
#获取数据的描述信息,例如mean(平均值)
msxx = df.describe()
# 删除缺失值所在行
df = df.dropna()
#使用平均值替换缺失值
d = df['C'].describe()['mean']
df = df.fillna(d)
#删除重复行
df = df.drop_duplicates()
#替换数据值
df = df.replace(4,3)
#对指定列进行升序排序
df = df.sort_values(by='C',ascending=True)
#对指定列进行降序排序
df = df.sort_values(by='C',ascending=False)
#分组统计
df = df.groupby('A')['C'].count()