欢迎光临散文网 会员登陆 & 注册

pandas GroupBy实例:《财富》1000强公司、流行早餐谷物表

2023-07-31 12:59 作者:矢来美羽MIUYARAI  | 我要投稿

《财富》1000强公司:fortune1000.csv

链接:https://pan.baidu.com/s/1dmb0Km-0OtMwgLI0sD3XCw?pwd=1234 

数据观察:

1. GroupBy对象的创建

21个sector分别是什么,每个sector有多少家公司?

旧方法:

提取"Retailing"的所有行:过滤

创建GroupBy的方法:

查看该GroupBy对象的size:(sector名对应value数量)

查看每个sector中具体的数值:(得到一个字典)

2. GroupBy的行提取

每组sector的第一行:first()

每组sector的最后一行:last()

每组sector的第(x+1)行:nth(x)

每组sector的前x行:head(x)

每组sector的后x行:tail(x)

指定sector组的所有行:get_group()

3. GroupBy的聚合操作

聚合sector求和:.sum()

求均值:

最大/最小值:筛出每个领域利润的最高值(输出Series

不同列采用不同聚合类型:.agg()

4. GroupBy的自定义操作

例如nlargest是提取最大值的几行:

使用apply()方法,则可以使用自定义操作。比如分组nlargest:筛出每个领域利润最高的公司,而不仅仅是最高值(对比前面的最大/最小值输出Series,这边输出DataFrame

5. 多级GroupBy

单级:

多级:

groupby为默认索引:

聚合操作后,为MultiIndex多级索引:


pandas GroupBy实例:《财富》1000强公司、流行早餐谷物表的评论 (共 条)

分享到微博请遵守国家法律