数据处理的通用方法思路
概述
表格由一行或多行单元格组成,用于显示数字和其他项以便快速引用和分析。表格中的项被组织为行和列。表头一般指表格的第一行,指明表格每一列的内容和意义。其中行成为记录,列称为字段。可以方便的处理和分析日常数据。
表格这种数据组织形式,常储存于以xls,xlsx为主的office文档,数据库中。
本篇主要提供个人处理数据的一般思路,答疑解惑。
由于数据存在形式不同,处理方法也有所不同,比如:
xls,xlsx文件可以通过excel或者wps内置函数,数据透视表等功能处理
数据库中的数据可以通过sql语句查询
python可以通过pandas,pyspark等库处理
等等.........
使用的工具不同,处理过程也有所不同,但是万变不离其宗,下面通过具体实例说明
数据处理原型机
准备数据--无需清洗,直接可以进行后续处理的数据

所含字段:

字段的数据类型,可以分为数值型与非数值型
以excel为例
宽表(Wide Table)是指一种横向存储数据的表格结构,每一行代表一个实例或观察结果,每一列代表一个属性或特征。宽表适用于存储一个实体的多个属性.
长表(Long Table)是指一种纵向存储数据的表格结构,每一行代表一个实例或观察结果,每一列代表一个属性或特征的取值。长表适用于存储多个实体的多个属性.

数据透视(长表变为宽表)
“数据透视”功能能够将筛选、排序和分类汇总等操作依次完成,并生成汇总表格,数据透视是一种可以快速汇总大量数据的交互式方法。

excel数据透视表提供筛选,行,列,值四个标签,供用户来拖拽放入相应的标签来生成汇总数据.












等等......
数值型字段放入值标签中可以进行相关更多的数学计算来汇总.
非数值型放入值标签中可以只可进行统计计算来汇总.
字段放入行,列标签中,会自动进行去重.


通过数据透视功能,能将字段中的项升级为字段,由此,长表可以变成宽表.
数据逆透视(宽表变为长表)
通过数据逆透视功能,能将多个字段降级为两个字段,一个属性,一个值.由此,宽表变为长表.

以Mysql为例







等等........,码累了,参考上面excel说的.
以python为例




等等......,码累了,参考上面excel说的.

总结
表格数据提供了便于操作汇总的一个数据展现形式,无论使用何种方法,表格字段如何不同,表格变形汇总基于透视与逆透视,即长宽表之间的转换.字段数据类型可分为数值型与非数据型.
长表便于存储以及后续操作,宽表便于展示更多信息.
同样数据,在excel里,数据库里,python里的操作方式尽管方式不同,但是都提供了解决对应问题及需求,帮助我们得到想要的结果.以此为基点,打通不同处理方式.
