数据分析从零开始实战 | 基础篇(二)

上节补充
CSV
逗号分隔值(Comma-Separated Values,CSV,有时也称为字符分隔值,因为分隔字符也可以不是逗号),其文件以纯文本形式存储表格数据(数字和文本)。
TSV
TSV 是Tab-separated values的缩写,即制表符分隔值。
Python的csv模块准确的讲应该叫做dsv模块,因为它实际上是支持范式的分隔符分隔值文件(DSV,delimiter-separated values)的。
delimiter参数值默认为半角逗号,即默认将被处理文件视为CSV。
当delimiter='\t'
时,被处理文件就是TSV。
零 写在前面
上一篇文章中带大家了解了数据分析基础,配置好了数据分析的基本环境,以及利用pandas
模块读写csv文件,在本文开头,我也补充了csv与tsv的基本介绍与区别,意在更好的让大家理解相关知识点,本文将带大家继续学习文件读取。
一 基本知识概要
1.利用pandas读写tsv文件
2.利用pandas读写json文件
二 开始动手动脑
1.利用pandas读写tsv文件
在文章开头我已经说明了csv与tsv的差别,相信部分看过第一篇文章的读者应该知道怎么处理tsv文件了。
csv与tsv只是内容的分隔符不一样,前者是,
,后者是\t
,python读取这两类文件都使用csv
模块,也可以直接利用pandas
,这里我们讲利用pandas读取方式,使用的函数read_csv()
与to_csv()
在上一篇 文章中有详细介绍,这里我直接上案例代码。
(1) 读取tsv文件代码

运行结果

(2) 写tsv文件代码

运行结果

(3)号外加餐
利用csv模块也可以直接读取csv和tsv文件
csv.reader(csvfile, dialect='excel', **fmtparams)
csv.writer(csvfile, dialect='excel', **fmtparams)

2.利用pandas读写json文件
(1)利用pandas读取json文件

运行结果

函数解析
read_json(path_or_buf,orient,encoding,numpy)
常见参数解析:
path_or_buf:字符串,表示文件路径;
orient:指示预期的JSON字符串格式。可以to_json()使用相应的方向值生成兼容的JSON字符串。一组可能的方向是:

encoding:字符串,默认为'utf-8';
numpy:布尔值,默认为False,直接解码为numpy数组。仅支持数字数据,但支持非数字列和索引标签。另请注意,如果numpy = True,则每个术语的JSON顺序必须相同。
(2)利用pandas写入json文件

运行结果

函数解析
to_json(path_or_buf,orient,encoding,index)
前三个参数和read_json()里的一样
index:False则选择不写入索引,默认为True。
end.
作者:老表

扫描下方二维码报名参加课程
