欢迎光临散文网会员登陆 & 注册

pandas Series对象实例：神奇宝贝、谷歌股价、美国内战

2023-07-26 13:01 作者:矢来美羽MIUYARAI 0人读过 | 我要投稿

基础部分

Series结合并扩展了python原生数据结构（列表、字典）的最佳特性。

导入库：

输入库的名称“pd”，输入英文句号，按Tab键，可显示库中的可用资源：

键盘的上下箭头键选择，Enter键确认选择。

查看函数参数（形参）：光标放在pd.Series()的“()”内，Shift+Tab键，

索引标签index默认是从0开始的整数：

将index改成字符串：

与字典不同的是，Series中的索引允许重复。

缺失值：使用NumPy的nan对象进行填充，

其他数据类型->Series：

字典：键（Key）->索引标签

元组：创建后无法修改。建议先包装在列表中。

集合：因为无序，需要先强制转换为列表（list()）

numpy.ndarray数据类型

例 - 随机整数（random int）：randint(low, high=None, size=None, dtype=int)

数学运算：
count()：非空值个数
sum()：求和
product()：求乘积
cumsum()：累计和（类似数列求和的Sn）
pct_change()：百分比变化（类似等比数列的q-1）
mean()：平均值
median()：中位数
max() / min()：最大、最小值
describe()：输出主要参数的统计总结

sample(num)：随机选取num个值
unique()：去除重复值，留下唯一值
nunique()：唯一值的数量

//：取整（floor devide）
%：取余

广播（Broadcasting）：对数组的运算->广播至对数组中每个元素的运算

Series方法

神奇宝贝：pokemon.csv
谷歌股价：google_stocks.csv
美国内战数据：revolutionary_war.csv
文件：https://pan.baidu.com/s/1qlfjUYthUqjdq5TsS1IwLA?pwd=1234

DataFrame直接读取：

指定用Series读取：

index_col = "Pokemon"：用Pokemon列作为索引。

squeeze = True：只有一列的DataFrame强制转换为Series。

pandas中的read_csv参数详解：https://blog.csdn.net/weixin_44852067/article/details/122366383

字符串格式需要转换为日期格式的情况：

对于revolutionary_war.csv，只导入Start Date和State：

Series排序

sort_values排序：默认升序

降序并删除NaN值：.dropna()

sort_index排序：用的不是value值，而是左侧的索引index

先显示缺失值：na_position = "first"

最大最小值检索的简化操作：

（最小值是largest改成smallest）

个数计算value_counts：最常见的神奇宝贝属性

以百分比的数值呈现，并限制精度：

归一化：normalize = True
小数点后的位数：.round(2)

股票价格：手动划分区间、并排序

（划分区间只能针对数值，不能针对日期、字符串等内容）

圆括号表示开区间，方括号表示闭区间，浮点数精度0.1%

自动根据max/min划分区间、并排序：

sort = False等价于.sort_index()

美国内战：哪一天的战斗最多

分别为每个value值调用函数：.apply()

单属性、双属性的神奇宝贝数量统计

如果属性中有正斜杠“/”，则是双属性。创建判断函数

使用该函数并计数：

美国内战：星期几的战斗数量最多

创建日期转星期函数：

strftime()：格式化日期时间的函数，更多参考https://blog.csdn.net/u014651560/article/details/117262618

只读取日期：

去除NaN，再应用函数：

再加上.value_counts()即可：

标签：

pandas Series对象实例：神奇宝贝、谷歌股价、美国内战的评论 (共条)