欢迎光临散文网 会员登陆 & 注册

《利用Python进行数据分析·第2版》第12章 pandas高级应用

2018-05-06 00:04 作者:绝不原创的飞龙  | 我要投稿

前面的章节关注于不同类型的数据规整流程和NumPy、pandas与其它库的特点。随着时间的发展,pandas发展出了更多适合高级用户的功能。本章就要深入学习pandas的高级功能。

12.1 分类数据

这一节介绍的是pandas的分类类型。我会向你展示通过使用它,提高性能和内存的使用率。我还会介绍一些在统计和机器学习中使用分类数据的工具。

背景和目的

表中的一列通常会有重复的包含不同值的小集合的情况。我们已经学过了unique和value_counts,它们可以从数组提取出不同的值,并分别计算频率:

In [10]: import numpy as np; import pandas as pd 

In [11]: values = pd.Series(['apple', 'orange', 'apple',

  ....:                     'apple'] * 2

In [12]: values 

Out[12]: 

0     apple

1    orange

2     apple

3     apple

4     apple

5    orange

6     apple

7     apple 

dtype: object 

In [13]: pd.unique(values) 

Out[13]: array(['apple', 'orange'], dtype=object) 

In [14]: pd.value_counts(values) 

Out[14]: 

apple     6

orange    2

dtype: int64

许多数据系统(数据仓库、统计计算或其它应用)都发展出了特定的表征重复值的方法,以进行高效的存储和计算。在数据仓库中,最好的方法是使用所谓的包含不同值得维表(Dimension Table),将主要的参数存储为引用维表整数键:

阅读全文:http://t.cn/RudtuUt


《利用Python进行数据分析·第2版》第12章 pandas高级应用的评论 (共 条)

分享到微博请遵守国家法律