欢迎光临散文网 会员登陆 & 注册

pandas Series对象实例:神奇宝贝、谷歌股价、美国内战

2023-07-26 13:01 作者:矢来美羽MIUYARAI  | 我要投稿

基础部分

Series结合并扩展了python原生数据结构(列表、字典)的最佳特性。

导入库:

输入库的名称“pd”,输入英文句号,按Tab键,可显示库中的可用资源:

键盘的上下箭头键选择,Enter键确认选择。

查看函数参数(形参):光标放在pd.Series()的“()”内,Shift+Tab键

索引标签index默认是从0开始的整数:

将index改成字符串:

与字典不同的是,Series中的索引允许重复。

缺失值:使用NumPy的nan对象进行填充,

其他数据类型->Series

字典:键(Key)->索引标签

元组:创建后无法修改。建议先包装在列表中。

集合:因为无序,需要先强制转换为列表(list())

numpy.ndarray数据类型

例 - 随机整数(random int):randint(low, high=None, size=None, dtype=int)

数学运算
count():非空值个数
sum():求和
product():求乘积
cumsum():累计和(类似数列求和的Sn)
pct_change():百分比变化(类似等比数列的q-1)
mean():平均值
median():中位数
max() / min():最大、最小值
describe():输出主要参数的统计总结

sample(num):随机选取num个值
unique():去除重复值,留下唯一值
nunique():唯一值的数量

//:取整(floor devide)
%:取余

广播(Broadcasting):对数组的运算->广播至对数组中每个元素的运算

Series方法

神奇宝贝:pokemon.csv
谷歌股价:google_stocks.csv
美国内战数据:revolutionary_war.csv
文件:https://pan.baidu.com/s/1qlfjUYthUqjdq5TsS1IwLA?pwd=1234

DataFrame直接读取


指定用Series读取:

index_col = "Pokemon":用Pokemon列作为索引。

squeeze = True:只有一列的DataFrame强制转换为Series

pandas中的read_csv参数详解:https://blog.csdn.net/weixin_44852067/article/details/122366383

字符串格式需要转换为日期格式的情况:

对于revolutionary_war.csv,只导入Start Date和State:

Series排序

sort_values排序:默认升序

降序并删除NaN值:.dropna()

sort_index排序:用的不是value值,而是左侧的索引index

先显示缺失值:na_position = "first"

最大最小值检索的简化操作:

(最小值是largest改成smallest)

个数计算value_counts:最常见的神奇宝贝属性

以百分比的数值呈现,并限制精度:

归一化:normalize = True
小数点后的位数:.round(2)

股票价格:手动划分区间、并排序

(划分区间只能针对数值,不能针对日期、字符串等内容)

圆括号表示开区间,方括号表示闭区间,浮点数精度0.1%

自动根据max/min划分区间、并排序:

sort = False等价于.sort_index()

美国内战:哪一天的战斗最多

分别为每个value值调用函数:.apply()

单属性、双属性的神奇宝贝数量统计

如果属性中有正斜杠“/”,则是双属性。创建判断函数

使用该函数并计数:

美国内战:星期几的战斗数量最多

创建日期转星期函数:

strftime():格式化日期时间的函数,更多参考https://blog.csdn.net/u014651560/article/details/117262618

只读取日期:

去除NaN,再应用函数:

再加上.value_counts()即可:


pandas Series对象实例:神奇宝贝、谷歌股价、美国内战的评论 (共 条)

分享到微博请遵守国家法律