pandas GroupBy实例:《财富》1000强公司、流行早餐谷物表
2023-07-31 12:59 作者:矢来美羽MIUYARAI | 我要投稿
《财富》1000强公司:fortune1000.csv
链接:https://pan.baidu.com/s/1dmb0Km-0OtMwgLI0sD3XCw?pwd=1234
数据观察:


1. GroupBy对象的创建
21个sector分别是什么,每个sector有多少家公司?
旧方法:

提取"Retailing"的所有行:过滤

创建GroupBy的方法:

查看该GroupBy对象的size:(sector名对应value数量)

查看每个sector中具体的数值:(得到一个字典)

2. GroupBy的行提取
每组sector的第一行:first()
每组sector的最后一行:last()
每组sector的第(x+1)行:nth(x)
每组sector的前x行:head(x)
每组sector的后x行:tail(x)
指定sector组的所有行:get_group()

3. GroupBy的聚合操作
聚合sector求和:.sum()


求均值:

最大/最小值:筛出每个领域利润的最高值(输出Series)
不同列采用不同聚合类型:.agg()

4. GroupBy的自定义操作
例如nlargest是提取最大值的几行:
使用apply()方法,则可以使用自定义操作。比如分组nlargest:筛出每个领域利润最高的公司,而不仅仅是最高值(对比前面的最大/最小值输出Series,这边输出DataFrame)

5. 多级GroupBy
单级:
多级:

groupby为默认索引:

聚合操作后,为MultiIndex多级索引:
