欢迎光临散文网 会员登陆 & 注册

Python数据分析入门(八):绘制直方图

2021-04-27 16:02 作者:松鼠爱吃饼干  | 我要投稿

直方图(Histogram),又称质量分布图,是一种统计报告图,由一系列高度不等的条纹表示数据分布的情况。一般用横轴表示数据类型,纵轴表示分布情况。 直方图是数值数据分布的精确图形表示。为了构建直方图,第一步是将值的范围分段,即将整个值的范围分成一系列间隔,然后计算每个间隔中有多少值。这些值通常被指定为连续的,不重叠的变量间隔。间隔必须相邻,并且通常是(但不是必须的)相等的大小。

绘制直方图:

直方图的绘制方法,使用的是plt.hist方法来实现,这个方法的参数以及返回值如下:

参数:

  1. x:数组或者可以循环的序列。直方图将会从这组数据中进行分组。

  2. bins:数字或者序列(数组/列表等)。如果是数字,代表的是要分成多少组。如果是序列,那么就会按照序列中指定的值进行分组。比如[1,2,3,4],那么分组的时候会按照三个区间分成3组,分别是[1,2)/[2,3)/[3,4]

  3. range:元组或者None,如果为元组,那么指定x划分区间的最大值和最小值。如果bins是一个序列,那么range没有有没有设置没有任何影响。

  4. density:默认是False,如果等于True,那么将会使用频率分布直方图。每个条形表示的不是个数,而是频率/组距(落在各组样本数据的个数称为频数,频数除以样本总个数为频率)。

  5. cumulative:如果这个和density都等于True,那么返回值的第一个参数会不断的累加,最终等于1

  6. 其他参数:请参考:https://matplotlib.org/api/_as_gen/matplotlib.pyplot.hist.html

返回值:

  1. n:数组。每个区间内值出现的个数,如果density=True,那么这个将返回的是频率/组距

  2. bins:数组。区间的值。

  3. patches:数组。每根条的对象,类型是matplotlib.patches.Rectangle

案例:

比如有一组电影票房时长,想要看下这组票房时长的数据,那么可以通过以下代码来实现:


效果图如下:




另外,也可以通过density=True,来实现频率分布直方图。示例代码如下:




而如果想要让nums的总和为1,那么就需要设置cumulative=True参数,示例代码如下:


直方图的应用场景:

  1. 显示各组数据数量分布的情况。

  2. 用于观察异常或孤立数据。

  3. 抽取的样本数量过小,将会产生较大误差,可信度低,也就失去了统计的意义。因此,样本数不应少于50个。


Python数据分析入门(八):绘制直方图的评论 (共 条)

分享到微博请遵守国家法律