《利用Python进行数据分析·第2版》第7章数据清洗和准备

2018-05-05 00:14 作者:绝不原创的飞龙 0人读过 | 我要投稿

在数据分析和建模的过程中，相当多的时间要用在数据准备上：加载、清理、转换以及重塑。这些工作会占到分析师时间的80%或更多。有时，存储在文件和数据库中的数据的格式不适合某个特定的任务。许多研究者都选择使用通用编程语言（如Python、Perl、R或Java）或UNIX文本处理工具（如sed或awk）对数据格式进行专门处理。幸运的是，pandas和内置的Python标准库提供了一组高级的、灵活的、快速的工具，可以让你轻松地将数据规变为想要的格式。

如果你发现了一种本书或pandas库中没有的数据操作方式，请尽管在邮件列表或GitHub网站上提出。实际上，pandas的许多设计和实现都是由真实应用的需求所驱动的。

在本章中，我会讨论处理缺失数据、重复数据、字符串操作和其它分析数据转换的工具。下一章，我会关注于用多种方法合并、重塑数据集。

7.1 处理缺失数据

在许多数据分析工作中，缺失数据是经常发生的。pandas的目标之一就是尽量轻松地处理缺失数据。例如，pandas对象的所有描述性统计默认都不包括缺失数据。

缺失数据在pandas中呈现的方式有些不完美，但对于大多数用户可以保证功能正常。对于数值数据，pandas使用浮点值NaN（Not a Number）表示缺失数据。我们称其为哨兵值，可以方便的检测出来：

In [10]: string_data = pd.Series(['aardvark', 'artichoke', np.nan, 'avocado'])

In [11]: string_data

Out[11]:

0 aardvark

1 artichoke

2 NaN

3 avocado

dtype: object

In [12]: string_data.isnull()

Out[12]:

0 False

1 False

2 True

3 False

dtype: bool

在pandas中，我们采用了R语言中的惯用法，即将缺失值表示为NA，它表示不可用not available。在统计应用中，NA数据可能是不存在的数据或者虽然存在，但是没有观察到（例如，数据采集中发生了问题）。当进行数据清洗以进行分析时，最好直接对缺失数据进行分析，以判断数据采集的问题或缺失数据可能导致的偏差。

阅读全文：http://t.cn/Ru3CV5a

标签：

《利用Python进行数据分析·第2版》第7章数据清洗和准备

7.1 处理缺失数据

《利用Python进行数据分析·第2版》第7章数据清洗和准备的评论 (共条)

你可能也喜欢这些文章

最新发布的文章

《利用Python进行数据分析·第2版》第7章 数据清洗和准备

7.1 处理缺失数据

本文作者的其他文章

《利用Python进行数据分析·第2版》第7章 数据清洗和准备的评论 (共 条)

你可能也喜欢这些文章

最新发布的文章

《利用Python进行数据分析·第2版》第7章数据清洗和准备

《利用Python进行数据分析·第2版》第7章数据清洗和准备的评论 (共条)