欢迎光临散文网 会员登陆 & 注册

数据分析第6篇|数据分析实战-2023年全国共有多少个兴趣点?(二)

2023-06-16 23:03 作者:锦一爸爸  | 我要投稿

首发于:https://mp.weixin.qq.com/s/mduVkHoqmXNNdALZGdt7sA

一个被数据分析困扰的女孩(由即时AI生成)

内容导航

  • 契机:为什么要写这篇文章?

  • 2023年全国兴趣点描述型统计分析

    • 第一步:准备数据

    • 第二步:读取数据

    • 第三步:进行描述性数据分析

    • 第四步:可视化

  • 写在后面的话

契机:

在人文号公众号推出的数据分析系列文章的《数据分析第2篇|深入理解:探究四种常见的数据分析类型》一文里,你可以了解到数据分析有四种类型:

  • 第一类:描述型数据分析

  • 第二类:探索性数据分析

  • 第三类:指导性数据分析

  • 第四类:预测性数据分析

其中,描述性数据分析是最基础也是最简单的一种数据分析类型。最近应一个研究所的邀请,参加了他们的一个课题研究,通过一些渠道获取到了2023年全国的兴趣点数据,咱们就通过这个实例来学习一下什么是描述性数据分析。

2023年全国兴趣点描述型统计分析

如果你只关心结果,不关心分析过程,直接查看这个图表就就可以了。

当然,你也可以点击这里查看:https://rwb-datav-tempjson-1258828407.cos.ap-guangzhou.myqcloud.com/chinese_2023poi.html

第一步:准备数据

要回答文章标题里提出的问题,我们先要准备数据,数据这里已经是准备好了的,共有34个省份,poi数据也是分散在34个省份的csv文件里。

第二步:读取数据

1 什么是csv格式?

鉴于公众号的读者很多是在校同学,在开始之前,先来科普一下什么csv格式的数据文件。我们平常使用最多的数据文件就是Excel了,Excel的存储格式一般有两种:

  • Excel 97-2003 :.xls

  • Excel 2007及以上 :.xlsx

如果你使用Excel处理过数据,你就会发现,对于Excel 97-2003 (.xls),一张表最多只能存储65536行,对于Excel 2007+ (.xlsx),最多可以存储1048576行。于是问题来了,那如果你要存储超过1048576行的数据用什么文件呢?
csv格式的文件就是这个问题的解决方案之一。

CSV是Comma-Separated Values的简称,是一种常见的文本文件格式,用于存储和交换简单的表格数据。CSV文件由纯文本组成,使用逗号(或其他分隔符)将不同的字段分隔开来。在CSV文件中,每一行表示一个数据记录,每个字段被逗号分隔。每个字段可以是文字、数字或其他类型的数据。CSV文件通常不包含任何格式化或样式信息,仅用于保存原始数据。

例如,下面是一个包含姓名、年龄和职业的示例CSV文件:Name, Age, OccupationJohn Doe, 30, EngineerJane Smith, 25, TeacherMike Johnson, 35, Doctor由于CSV格式是一种通用的文本格式,几乎所有的电子表格软件和数据库系统都支持导入和导出CSV文件。它就常被用作数据交换的一种标准格式了。

2 如何读取csv格式的数据?有哪些注意事项?

你可以使用下面几种常见的工具来打开csv格式的工具:
1 wps:最多只支持1048576行
2 Excel:最多只支持1048576行

3 NotePad+或者其他专业的文本编辑器:不限量,但如果你电脑内存比较小,你读取的文件又比较大,会无法打开。

4 windows自带的记事本:不限量,但如果你电脑内存比较小,你读取的文件又比较大,会无法打开,或者卡死5 人文帮公众号推出的EasyDatav:傻瓜式导入,只要你内存足够大,理论上没有上限。


以下是几个注意事项:
编码处理
CSV文件可能使用不同的字符编码方式进行保存,如UTF-8、ASCII等,要正确读取CSV文件,应该根据实际情况选择正确的编码方式。
最常见的问题就是你使用Excel打开utf8格式的csv文件,你会发现乱码了


2 分隔符选择:
CSV文件中的字段通常使用逗号作为分隔符,但有时也可以使用其他字符,如制表符(\t)或分号(;)。在读取CSV文件之前,要确保选择了正确的分隔符。
建议大家用默认的英文逗号来作为分割符。
3 数据类型转换:
CSV文件中的所有数据都以字符串的形式存储。如果需要将某些字段解析为特定的数据类型(如整数、浮点数等),则在读取CSV文件后,可以对相应的列进行数据类型转换。

3 读取出结果

古语云:行百里者半九十。你如果把一个数据分析的完整过程做下来,你会发现,一般来说,数据采集和数据处理会占用你大概至少80%甚至更多的时间。而真正用于数据分析的时候可能只有20%,甚至更少。我这里偷个懒,直接让chatGpt代劳了,写得不错。

今天,专业数据分析师公布了对中国各省份的兴趣点数量进行的描述性统计分析结果。这一分析提供了深入了解中国不同地区兴趣点分布的重要见解。根据数据分析结果表明,截至最新统计,中国共有31个省份和地区被纳入分析范围。
其中,广东省以令人瞩目的699.26万个兴趣点数量脱颖而出,成为中国兴趣点最多的省份。其次是江苏省,该省拥有565.17万个兴趣点,排名第二。山东省紧随其后,位列第三,拥有520.50万个兴趣点。这些省份在兴趣点数量上占据了领先地位,突显了其丰富的文化、旅游和商业资源。

此外,其他省份的兴趣点数量也展现出巨大的潜力和发展机会。浙江省紧随前三位,拥有466.86万个兴趣点;四川省以411.56万个兴趣点数量稳居第五;河南省、湖南省和河北省分别拥有365.86万个、342.84万个和322.31万个兴趣点。
对于这些数据,专业数据分析师进行了进一步的统计分析。结果显示,兴趣点数量的平均值为6,862,377个,中位数为3,228,083个。最小值为澳门特别行政区的22,301个兴趣点,而最大值则是广东省的699.26万个兴趣点。
此外,四分位数显示25%的省份和地区在166.94万个兴趣点以下,50%的省份和地区在342.54万个兴趣点以下,而75%的省份和地区在565.07万个兴趣点以下。标准差约为200.52万,突显出兴趣点数量的一定程度的离散性。
这一描述性统计分析提供了关于中国各省份兴趣点分布的重要见解。对于政府部门、旅游机构、商业企业以及文化和体育领域的从业者来说,这些数据都具有重要的参考价值。他们可以作为决策制定、资源配置和市场营销的基础,为各行各业的发展提供支持和指导。

第四步:可视化

虽然是描述型统计分析,但千万不要以为,描述一下就完了。
一份完整的数据分析报告,图表是必不可少的,很多同学于是就开始自由发挥了。
毕业后的第一份工作就是数据分析师,也踩过很多坑,为避免你也踩坑,简单分享一些经验。

1 以终为始,勿忘初心

我们在之前的系统文章中一再强调数据分析的目标是解决问题,解决需求背景中遇到的问题,为决策者进行决策提供数据依据。所以在进行数据可视化时,有一个核心原则一定要牢记,数据可视化不是目的,它是为了数据分析服务的。目标是把信息传达给决策者。所以不要过度装饰和复杂化,大道至简,只要能说明问题,越简洁的图表,越能最高效的传达信息。

2 善用工具,不要重复造轮子

对于普通人来说,Excel应该是用的最多的数据可视化工具。虽然有用的好的,但是对于一般人来说,单单从效率来讲,它是不及格的。
其实已经有很多比较成熟的BI工具是面向个人开放的,如阿里的Quick BI,网易有数等等。
你只需要导入数据,然后通过拖拉拽就可以生产简洁美观的图表了。
这些图表的配色背后都是有专业的设计师的心血的,基本拿来即用就可以了。


上面是我使用阿里的quickbi简单做了几个图表。没有做任何配色,基本是在5分钟内完成的。
分享给你一下,你可以试一下,对个人可以免费试用,可以付很少的钱长期使用:
链接:https://www.aliyun.com/product/bigdata/bi?

然后我又用了几天,累计近五个小时,做了一个比较酷炫的效果。做这个可视化地图是因为有同学付费咨询,想要实现这个效果,想知道怎么做。

如果仅仅为了这个效果而去浪费这个时间,偏离了数据分析的初衷,有点得不偿失,当然,如果你的导师或者领导坚持需要那就另当别论了。

写在后面的话

数据分析的本质就是解决问题,一个问题一旦被提出来,它就包含了三个要素:用户、场景和问题。描述性统计也好,探索性数据分析也好,都只是手段,而不是目的

如何满足用户在特定场景下的需求,帮助决策者快速决策,才是数据分析最为根本的目标。

最后,愿你在数据分析的道路上披荆斩棘,所向披靡。我只愿,面朝大海,看到你的收藏和点赞👍……


数据分析第6篇|数据分析实战-2023年全国共有多少个兴趣点?(二)的评论 (共 条)

分享到微博请遵守国家法律