欢迎光临散文网 会员登陆 & 注册

《利用Python进行数据分析·第2版》第6章 数据加载、存储与文件格式

2018-05-05 00:12 作者:绝不原创的飞龙  | 我要投稿

访问数据是使用本书所介绍的这些工具的第一步。我会着重介绍pandas的数据输入与输出,虽然别的库中也有不少以此为目的的工具。

输入输出通常可以划分为几个大类:读取文本文件和其他更高效的磁盘存储格式,加载数据库中的数据,利用Web API操作网络资源。

6.1 读写文本格式的数据

pandas提供了一些用于将表格型数据读取为DataFrame对象的函数。表6-1对它们进行了总结,其中read_csv和read_table可能会是你今后用得最多的。

表6-1 pandas中的解析函数

我将大致介绍一下这些函数在将文本数据转换为DataFrame时所用到的一些技术。这些函数的选项可以划分为以下几个大类:

  • 索引:将一个或多个列当做返回的DataFrame处理,以及是否从文件、用户获取列名。

  • 类型推断和数据转换:包括用户定义值的转换、和自定义的缺失值标记列表等。

  • 日期解析:包括组合功能,比如将分散在多个列中的日期时间信息组合成结果中的单个列。

  • 迭代:支持对大文件进行逐块迭代。

  • 不规整数据问题:跳过一些行、页脚、注释或其他一些不重要的东西(比如由成千上万个逗号隔开的数值数据)。

因为工作中实际碰到的数据可能十分混乱,一些数据加载函数(尤其是read_csv)的选项逐渐变得复杂起来。面对不同的参数,感到头痛很正常(read_csv有超过50个参数)。pandas文档有这些参数的例子,如果你感到阅读某个文件很难,可以通过相似的足够多的例子找到正确的参数。

其中一些函数,比如pandas.read_csv,有类型推断功能,因为列数据的类型不属于数据类型。也就是说,你不需要指定列的类型到底是数值、整数、布尔值,还是字符串。其它的数据格式,如HDF5、Feather和msgpack,会在格式中存储数据类型。

阅读全文:http://t.cn/Ru3CZe5

《利用Python进行数据分析·第2版》第6章 数据加载、存储与文件格式的评论 (共 条)

分享到微博请遵守国家法律