《利用Python进行数据分析·第2版》第12章 pandas高级应用

2018-05-06 00:04 作者:绝不原创的飞龙 0人读过 | 我要投稿

前面的章节关注于不同类型的数据规整流程和NumPy、pandas与其它库的特点。随着时间的发展，pandas发展出了更多适合高级用户的功能。本章就要深入学习pandas的高级功能。

12.1 分类数据

这一节介绍的是pandas的分类类型。我会向你展示通过使用它，提高性能和内存的使用率。我还会介绍一些在统计和机器学习中使用分类数据的工具。

表中的一列通常会有重复的包含不同值的小集合的情况。我们已经学过了unique和value_counts，它们可以从数组提取出不同的值，并分别计算频率：

In [10]: import numpy as np; import pandas as pd

In [11]: values = pd.Series(['apple', 'orange', 'apple',

....: 'apple'] * 2)

In [12]: values

Out[12]:

0 apple

1 orange

2 apple

3 apple

4 apple

5 orange

6 apple

7 apple

dtype: object

In [13]: pd.unique(values)

Out[13]: array(['apple', 'orange'], dtype=object)

In [14]: pd.value_counts(values)

Out[14]:

apple 6

orange 2

dtype: int64

许多数据系统（数据仓库、统计计算或其它应用）都发展出了特定的表征重复值的方法，以进行高效的存储和计算。在数据仓库中，最好的方法是使用所谓的包含不同值得维表(Dimension Table)，将主要的参数存储为引用维表整数键：

阅读全文：http://t.cn/RudtuUt

标签：