pandas GroupBy实例：《财富》1000强公司、流行早餐谷物表

2023-07-31 12:59 作者:矢来美羽MIUYARAI 0人读过 | 我要投稿

《财富》1000强公司：fortune1000.csv

链接：https://pan.baidu.com/s/1dmb0Km-0OtMwgLI0sD3XCw?pwd=1234

数据观察：

1. GroupBy对象的创建

21个sector分别是什么，每个sector有多少家公司？

旧方法：

提取"Retailing"的所有行：过滤

创建GroupBy的方法：

查看该GroupBy对象的size：（sector名对应value数量）

查看每个sector中具体的数值：（得到一个字典）

2. GroupBy的行提取

每组sector的第一行：first()

每组sector的最后一行：last()

每组sector的第(x+1)行：nth(x)

每组sector的前x行：head(x)

每组sector的后x行：tail(x)

指定sector组的所有行：get_group()

3. GroupBy的聚合操作

聚合sector求和：.sum()

求均值：

最大/最小值：筛出每个领域利润的最高值（输出Series）

不同列采用不同聚合类型：.agg()

4. GroupBy的自定义操作

例如nlargest是提取最大值的几行：

使用apply()方法，则可以使用自定义操作。比如分组nlargest：筛出每个领域利润最高的公司，而不仅仅是最高值（对比前面的最大/最小值输出Series，这边输出DataFrame）

5. 多级GroupBy

单级：

多级：

groupby为默认索引：

聚合操作后，为MultiIndex多级索引：