数据分析从零开始实战（三）

2020-01-22 13:43 作者:爱数据分析社区 0人读过 | 我要投稿

零、写在前面

前面两篇文章基础篇（一）和基础篇（二）讲了数据分析虚拟环境创建和pandas读写csv、tsv、json格式的数据，今天我们继续探索pandas读取数据。
本系列学习笔记参考书籍：《数据分析实战》托马兹·卓巴斯

一、基本知识概要

1.利用pandas读写Excel文件
2.利用pandas读写XML文件

二、开始动手动脑

1.利用Python读写Excel

读取，利用Pandas库的ExcelFile()方法。
写入，利用

代码

读取结果：

写入结果：

可能报错：

解决方法：

2.利用Python读写XML文件

学过java的同学对XML应该不陌生，全称是eXtensible Markup Language(扩展标记语言)，虽然平时不常见，但是Web API里支持XML编码。

读写代码

运行结果

代码解析

(1)read_xml(xml_FileName)函数
功能：读入XML数据，返回pa.DataFrame
这里利用到了一个轻量级的XML解析器：xml.etree.ElementTree。传入文件名，先读取文件内容，然后利用parse()函数解析XML，创建一个树状结构并存放在tree变量中，在tree对象上调用getroot()方法得到根节点，最后调用iter_records()函数，传入根节点，进而将返回的信息转换成DataFrame。

(2)iter_records(records)函数
功能：遍历有记录的生成器
iter_records()方法是一个生成器，从关键字yield可以看出来，如果你不了解生成器，可以点击这里,与return不同，生成器每次只向主调方法返回一个值，直到结束。

(3)write_xml(xmlFile, data)函数
功能：以XML格式保存数据
这里需要注意的是得按XML文件格式进行保存，我们要做的就是三步：保存头部格式、按格式保存数据、保存尾部格式。保存数据时用到了DataFrame对象的apply()方法，遍历内部每一行，第一个参数xml_encode指定了要应用到每一行记录上的方法，axis=1表示按行处理，默认值为0，表示按列处理。

(4)xml_encode(row)函数
功能：以特定的嵌套格式将每一行编码成XML
在写数据的过程我们会调用这个方法，对每行数据进行处理，变成XML格式。

end.

作者:老表的第一个一百万.

扫描下方二维码报名参加课程

标签：