欢迎光临散文网 会员登陆 & 注册

数据处理的通用方法思路

2023-08-27 05:11 作者:MMuto  | 我要投稿

概述

   表格由一行或多行单元格组成,用于显示数字和其他项以便快速引用和分析。表格中的项被组织为行和列。表头一般指表格的第一行,指明表格每一列的内容和意义。其中行成为记录,列称为字段。可以方便的处理和分析日常数据。

    表格这种数据组织形式,常储存于以xls,xlsx为主的office文档,数据库中。

    本篇主要提供个人处理数据的一般思路,答疑解惑。

    由于数据存在形式不同,处理方法也有所不同,比如:

  • xls,xlsx文件可以通过excel或者wps内置函数,数据透视表等功能处理

  • 数据库中的数据可以通过sql语句查询

  • python可以通过pandas,pyspark等库处理

等等.........


使用的工具不同,处理过程也有所不同,但是万变不离其宗,下面通过具体实例说明

   

数据处理原型机

准备数据--无需清洗,直接可以进行后续处理的数据


表格文件,以储存到mysql数据库中

所含字段:

字段

字段的数据类型,可以分为数值型非数值型


以excel为例

宽表(Wide Table)是指一种横向存储数据的表格结构,每一行代表一个实例或观察结果,每一列代表一个属性或特征。宽表适用于存储一个实体的多个属性.

长表(Long Table)是指一种纵向存储数据的表格结构,每一行代表一个实例或观察结果,每一列代表一个属性或特征的取值。长表适用于存储多个实体的多个属性.

长表,宽表

数据透视(长表变为宽表)

“数据透视”功能能够将筛选、排序和分类汇总等操作依次完成,并生成汇总表格,数据透视是一种可以快速汇总大量数据的交互式方法。


数据透视功能

excel数据透视表提供筛选,行,列,值四个标签,供用户来拖拽放入相应的标签来生成汇总数据.

单行单值
单行多值
多行单值
多行多值
单列单值
单列多值
多列单值
多列多值
单行多列多值
多行多列多值
单行多汇总
单行多值,一个值字段为数值型字段,另一个为非数值型字段

等等......

数值型字段放入值标签中可以进行相关更多的数学计算来汇总.

非数值型放入值标签中可以只可进行统计计算来汇总.

字段放入行,列标签中,会自动进行去重.

多种值汇总方式
多种值显示方式

通过数据透视功能,能将字段中的项升级为字段,由此,长表可以变成宽表.

数据逆透视(宽表变为长表)

通过数据逆透视功能,能将多个字段降级为两个字段,一个属性,一个值.由此,宽表变为长表.

宽表转换成长表


以Mysql为例

单行单值
多行单值
单值
多值
单行单列单值
多行单列单值
多行单列多值

等等........,码累了,参考上面excel说的.

以python为例

读取数据
单行单值
多行单值
多行单列单值

等等......,码累了,参考上面excel说的.


总结

表格数据提供了便于操作汇总的一个数据展现形式,无论使用何种方法,表格字段如何不同,表格变形汇总基于透视与逆透视,即长宽表之间的转换.字段数据类型可分为数值型与非数据型.

长表便于存储以及后续操作,宽表便于展示更多信息.

同样数据,在excel里,数据库里,python里的操作方式尽管方式不同,但是都提供了解决对应问题及需求,帮助我们得到想要的结果.以此为基点,打通不同处理方式.




数据处理的通用方法思路的评论 (共 条)

分享到微博请遵守国家法律