统计基础3 整理
本单元主要阐述《统计基础》中的统计资料整理的相关概念、原理和方法及其运用。主要内容包括统计整理的含义和内容,统计分组的概念、类型和方法,分组标志的选择原则,分配数列的种类及编制,统计表的编制和统计图的绘制方法等内容。
在统计调查中所得到了大量分散的、没有条理的不系统的原始资料,必须以适当的方法加工处理,使其条理化、系统化、科学化,才能成为统计分析可用的资料。统计整理是统计工作过程中的重要环节,在统计工作中起着承前启后的作用。统计整理既是统计调查的继续和深入,又是统计分析和预测的基础和前提,其质量不仅直接关系到调查资料能否发挥其应有的作用。
如果统计整理这一步工作没有做好,就会使调查所得来的丰富、完备的资料失去价值,掩盖现象的真实本质,使人们无法得到正确的结论,从而无法达到统计工作的目的。

(一)统计分组
社会经济现象之间常常既存在某些共同的性质,又存在种种差异。为了对总体有更为深刻的认识,就需要进行统计分组。
统计研究的目的,在于反映所研究总体的状况和特征。统计为了认识总体,不仅要研究总体的一般特征,还需要对总体内所有单位在质量与数量上存在的差异进行分析。统计分组就是基于这种需要而产生的。
1、统计分组的概念:统计分组就是根据统计研究的需要,按照一定的标志,将统计总体划分为若干个组成部分的一种统计方法。总体的这些组成部分,称为"组”,也就是大总体中的小总体。例如:人口总体可以按性别、年龄、民族、文化程度等标志划分为各种的组。这些各种各样的组还可以找到分组标志继续分下去。
2、统计分组的实质:统计分组实质上是对统计总体内部进行结构分类。它是统计特有的方法,在统计工作中发挥着重要作用。只有对总体进行科学分组,才能对社会经济现象进行分门别类的研究,通过对现象各个局部的了解,可以更加深刻地认识事物的本质。
3、统计分组的原则
在统计分组中,必须遵循一定原则,才能达到统计分组的目的,发挥统计分组的作用。统计分组遵循两大原则即完备原则和互斥原则。
(1)完备原则。完备原则是指要使总体中的每一个单位都应有组可归,或者说每个分组的空间能够容纳所有的总体单位。例如我们将从业人员按文化程度分组时,分为研究生教育、高等教育和中等教育三组,那么,那些文盲或小学初中毕业的人就无组可归,所以在按这个标志分组时须加入"初等教育”这一组。
(2)互斥原则。互斥原则是指在一定的分组标志下,总体中的一个单位只能归属于某一组,不能同时或可能归属于几个组。例如商场把服装分为男装、女装和童装三类,这不符合互斥原则,因为童装也有男装、女装之分。如先把服装分为成人和儿童两类,然后每类再分为男装、女装两组,这就符合互斥原则了。
4、统计分组的作用
统计分组在统计整理和统计分析中具有重要的作用,主要表现在以下几方面:
(1)零星分散的统计资料,经过统计分组后,可以发现其特点及规律性
例如:某企业工人进行技能测试的成绩分别如下(单位:分)
57 89 49 84 86 87 75 73 72 68 75 82 97 81 67 81 54 79 87 95 76 71 60 90 65 76 72 70 86 85 89 89 64 57 83 81 78 87 72 61
这是统计调查得到的资料是零星的、分散的,从上述原始资料中大致看出工人的技能测试成绩有高有低,在49~97分之间,但很难对该企业工人的技能水平进行具体分析,故对上述资料进行分组并汇总进行观察,见下表。

通过上述分组,可看出工人测试成绩的基本情况做出综合评价:最低分为49分,最高分为97分,其中,测试成绩在80~90分之间的工人数最多,占了37.5%。不及格和优秀的工人数都比较少,分别占了总工人数的10%和7.5%。通过分组表可以看出其分布特征是"两头小,中间大”的正态分布。
(2)把复杂现象总体区分为各个性质不同的组成部分,可以认识现象之间质的差别
社会经济现象是极其复杂多样的,客观上存在着各种不同类型,各种不同类型的现象在规模、水平、速度、结构、比例关系等方面的数量表现有所不同或具有差异。利用统计分组就能根据统计研究的目的,将总体区分为各种性质不同的类型,来研究各类现象的数量差异和特征以及相互关系。
例如,按经济活动性质不同,将所有国民经济行业划分为第一产业、第二产业、第三产业;企业按照经济类型可以划分为国有、集体、民营、合营、个体、外资、中外合资等多种类型;农业又可以划分为农、林、牧、渔四大类型。将社会经济总体划分为若干类型,是统计中应用最广泛的分组。
从表中可以看出,2014年我国居民消费价格总体趋势是上升的。但八大类的商品和服务项目有升也有降,而城市与农村居民消费价格也不完全一致。所以通过将全国消费品和服务经过分组,同时区分农村和城市消费价格,不仅可以对全国居民消费价格总水平有基本了解,同时也能够对城镇和农村、不同类别的消费价格的差别有了更深的了解。

(3)把不同时间的同一总体的内部结构资料排列起来,可以反映总体内部结构的变化
在统计分组的基础上,可以进一步计算总体内部各部分所占的比重,从而揭示总体的内部结构,反映总体与部分、部分与部分间的区别与联系,可以说明现象总体的基本性质和特征。同时,对现象内部结构的变化进行动态研究,还可以反映现象总体发展变化的过程、趋势和规律。

(4)可以揭示现象之间的依存关系
一切社会经济现象都不是孤立的,而是互相联系、互相依存、互相制约的。例如,商品的销售量与商品价格之间的关系;在工业企业中,劳动生产率与利润的依存关系;在商业企业中,商品销售额与流通费用的关系;在人口统计中,吸烟者与肺癌患者的关系等,都可以通过分组来解释。
下面根据下表分组资料,分析销售额与每百元商品销售额中支付的流通费用之间的关系。

从分组资料可以看出,销售额越大,每百元商品销售额中支付的流通费用越小。这种依存关系,只有通过分组才可以观察得到。
5、统计分组的方法
统计分组的关键是选择分组标志和划分各组界限。分组标志是指对总体进行分组时所遵循的标准或依据。如,将学生按照性别分组,则"性别”就是分组标志;工人按工资分组,则"工资”就是分组标志。划分各组界限,就是在分组标志变异范围内,划定各相邻组间的性质界限和数量界限。选择分组标志和划分各组界限不仅影响统计分组的科学性和资料整理的准确性,而且还影响到最终统计分析结果的质量。
分组标志确定以后,接下来就是解决分组方法问题。根据分组标志的不同特征,统计总体可以按品质标志分组,也可以按数量标志分组。分组方法论就是阐述这两种分组的具体方法。
(1)按品质标志分组
按品质标志分组,就是根据统计研究的目的,选择反映事物性质属性差异的品质标志作为分组标志,在品质标志变异的范围内,划定各组的性质界限,将总体划分为若干个性质不同的组成部分。例如,研究国民经济总体时,可按"经济类型”分组,划分为国有经济、集体经济、个体经济、股份制经济等;按"国民经济部门”分组,划分为工业企业、商业企业、金融企业、乡镇企业等。再如,研究人口构成状况时,可按"性别”分组,划分为男和女;按"文化程度”分组,划分为大学及其以上、高中、初中、小学、半文盲和文盲。
按品质标志分组在有些情况下比较简单,分组标志一经确定,组名称和组数也就随即确定下来,不存在组与组之间界限区分的困难。例如,人口按性别分为男女两组,又如工业企业按经济类型分为国有企业、民营企业、私有企业等。但在有些情况下,按品质标志分组显得比较复杂,组与组的界限不易划分。对这些复杂现象总体进行分组,统计上称为分类。分类不仅涉及复杂的分组技术,而且也涉及国家的政策和科学理论,因而要十分慎重。为了保证各种分类的科学性、统一性和完整性,便于各个部门掌握和使用,国家统计局会同有关部门制定了统一的分类目录,在全国范围内实行。如商品分类目录、工业产品分类目录、工业部门分类目录等。
(2)按数量标志分组
按数量标志分组,就是根据统计研究的目的,选择反映事物数量差异的数量标志作为分组标志,在数量标志值的变异范围内划定各组的数量界限,将总体划分为若干个性质不同的组成部分。例如,研究居民家庭贫富状况时,按恩格尔系数分组,可将其在60% 以上的划分为贫困家庭,50% ~60% 的为温饱家庭,40% ~50% 的为小康家庭,40% 以 下的为富裕家庭。
数量标志反映的是事物特定内容的数量特征,其概念是具体明确的。但按数量标志分组,并不是单纯地确定各组间的数量差异,而是要通过分组体现的数量变化来确定现象的不同性质和不同类型。因此,根据变量值的大小来准确划分性质不同的各组界限并不容易,这就要求我们在按数量标志分组时,首先分析总体中可能有多少种性质不同的组成部分,然后再研究确定各组成部分之间的数量界限 。
按数量标志分组存在组距问题,所以比较复杂,以下结合变量的分类和变量分组中的单项式分组和组距式分组等方面来说明:
A、离散型变量
对于离散型变量,如变量值变动幅度较小,则我们可依次将每一个变量作为一组,这种分组称为单项式分组。如某企业工人按看管机器设备台数分组如表所示。

但是,如离散型变量的变量值变动幅度很大,项数又很多,采用单项式分组,势必使分组数太多,各组没有几个单位,从而失去分组的意义。在某些场合,离散型变量就不能作单项式分组,例如将全国所有城市按人口数进行分组,由于各城市人口差别很大,城市人口相同的情况几乎是不存在的,因此就不存在单项式分组的问题。因此,大多数离散型变量采取组距式分组。
组距式分组就是把整个变量值依次划分为几个区间,各个变量值则按其大小确定所归并的区间,区间的距离称为组距,这样的分组称为组距式分组。
进行组距式分组,通过组距分组以后各组内部各单位的次要差异被抽象化了,而各组之间的差异则突现出来,这样,各组分配的规律性就更容易地显示出来。
组距式分组后,组距的大小,组数的确定应根据研究对象的经济内容和标志值的分散程度等因素,不可强求一致。
B、连续型变量 :连续型变量由于不能一一列举变量值,故不能作单项式分组,只能进行组距式分组。例如,工人按工资分组,学生按考试成绩分组,企业按总产值分组等。如上述表3-1就属于组距式分组。
(二)分布数列
分布数列是统计整理的一种重要形式,也是统计描述和统计分析的重要内容。它可以表明总体各单位的分布特征和内部结构,并为研究总体中某种标志的平均水平及其变动规律提供依据。
1、分布数列的概念和分类
(1)分布数列的概念:又称分配数列、次数分布、统计分布,是在统计分组的基础上,将总体的所有单位按组归类整理,形成总体中各单位在各组间的分布。通过统计分组,可将总体中所有单位进行归类,各组分配的单位数叫做次数,又称频数;各组单位数占总体单位数的比重,称为频率。次数和频率从不同角度反映了各组标志值出现的频繁程度,说明总体各单位在各组间的分布状况。
(2)分布数列的类型,可分为两种:一种是按品质标志分组而形成的品质分布数列,简称品质数列,如企业按经济类型分组,而形成的数列即为品质数列;二是按数量标志分组而形成的变量分布数列,简称变量数列。
变量数列按其分组方式不同又有两种,即按单项式分组而形成的单项式数列和按组距式分组而形成的组距式数列,这与变量分组分为单项式分组和组距式分组是一致的。
对于品质数列来说,如果分组标志选择得好,分组标准定得恰当,则事物性质的差异也会表现得比较明确,总体中各组如何划分这一难题也较易解决。因而品质数列一般比较稳定,通常能够准确反映总体的分布特征。对于变量数列来说,事物性质的差异表现得不甚明确,决定事物性质的数量界限往往因人的主观认识而异,因此按同一数量标志分组有出现多种分布的可能。
分布数列中各组单位数表示我们所要考察的标志值在各组中出现的次数,所以被称为次数或频数。各组次数占总次数的比重称为频率。
2、变量数列的编制:由于品质数列和单项式变量数列的编制相对比较简单,因此,我们着重研究组距式变量数列的编制方法和步骤。下面拟结合实例具体说明变量数列的编制过程。
[例]某班40名学生的数学考试成绩如下:
82 79 88 86 75 80 89 74 85 69
35 75 86 75 66 78 82 70 76 97
72 79 99 84 75 61 64 80 85 74
60 60 91 79 90 76 76 83 85 52
以上这些资料凌乱无章,很难从中看出什么特征,因而需要对其进行统计整理。
首先 ,将这些资料按大小进行排列,以便观察其变动范围。由此得到:
35 52 60 60 61 64 66 69 70 72
74 74 75 75 75 75 76 76 76 78
79 79 79 80 80 82 82 83 84 85
85 85 86 86 88 89 90 91 97 99
经过初步整理,可以看出资料的某些特征:该班数学考试成绩分布在35--99分之间,最高分为99分,最低分为35分, ,波动幅度较大;多数学生的成绩集中在70分到90分之间。
其次,确定数列的类型。由于变量值个数很多,因此,这一资料不适宜编制单项式数列,只能编制组距式数列。
第三,确定组距和组数。编制组距式数列的关键是确定组距和组数。通过分析资料的特点,参照前面所说的一系列分组方法原理,我们可将组距定为10分,组数定为5组(对学习成绩的分析主要从不及格、及格、中、良好及优秀方面考虑),于是各组就依次表现为60分以下,60--70分,70--80分,80--90分,90--100分等。
最后,计算每一组的学生数及其比重,就形成分布数列,见表。

从这一变量数列可看出,这40位学生的成绩呈现"两头小,中间大”的分布,规律性很明显。
有时编制组距式数列,对该用多大组距、组数多少,可能有些盲目,不妨先按小组距分组,然后逐步合并组距,从比较中择其优者。就上例来说,如果我们先按5分为组距来编制分配数列,将会发现各组单位数很分散,规律性不太明显;如将组距扩大到10分,规律性就十分明显了。
分布数列的编制,特别是组距式变量数列的编制,其灵活性较大,即使对于同一研究目的和同一原始资料,由于研究者的认识水平和工作习惯不同,也会得出不同的结果。但必须强调,编制组距式变量数列一定要客观反映现象的总体特征。
3、分布数列的表示方法
分布数列是统计分组的一种重要形式,对于研究总体单位分布的状况和规律,有重要的意义。因此,需要采用正确的具有综合性和总结性的方法加以反映。列表法和图示法就是常用方法。
(1)列表法:即用统计表格形式表述分布数列的内容,这种表式也叫做次数分布表。
为了便于分析问题和计算各种指标,需要计算累计次数和累计频率。现以上例资料说明如下:

向上累计是以变量值最小一组的次数为始点,逐项累计各组的次数和频率;每组的累计次数或累计频率,表示小于该组变量值上限的次数或频率合计有多少。向下累计则是从变量值最大一组的次数或频率开始,逐项累计各组的次数和频率;每组的累计次数或累计频率,表示大于该组变量值下限的次数或频率合计有多少。
(2)图示法
图示法即利用几何图形描述分布数列,以表明总体单位的分布状况和规律,这些图形也叫做次数分布图。根据一定的次数分布表,可以绘制相应的次数分布图。最常用的有次数折线图和次数直方图。此外 ,还可以绘制累计次数分布图。绘制这类统计图的基本方法就是先画出直角坐标系,横轴代表各组的标志值或组距,纵轴代表各组次数或频率。必要时,以左侧的纵轴表示次数,而以右侧的纵轴表示频率。
①次数折线图:现以单项式变量数列为例,说明绘制方法。以变量值为横轴,以次数为纵轴,在坐标上找出各组的变量值和相应的分配次数所对应的坐标点,并用折线连接起来,即得到次数分布折线图。
②次数直方图:在等距分组的条件下,图上横轴的划分应标明各组组限,以直方形的高度表示各组次数,其宽度与各组组距相适应,这样绘制的各直方图的面积可以用来表示各组次数的分布状况,称为次数直方图。如果用直线连接直方图中各个直方形顶端的中点(即各组的组中值),并在直方图形左右侧各延伸一组,使折线与横轴相连接,即成次数折线图。在这种折线图的基础上,稍加修匀,即连接各组次数坐标点的线段用平滑曲线,就成为次数分布曲线图。
③累计次数分布图:根据累计次数分布表制成的,绘制方法与次数分布折线图基本相同,向上累计以各组上限为横坐标,向下累计以各组下限为横坐标,其纵坐标都是累计次数。如果纵轴采用百分数为单位,则可以制成累计百分数折线图。
④次数分布曲线图:由上述变量数列的图示法可以看出,当变量数列的组数无限增多时,折线近似地表现为曲线。社会经济现象的次数分布曲线多种多样,人们通过长期的观察和总结,将其归纳为三种类型:
A、钟形分布:如果一个次数分布数列呈现这样的特征:较大变量值和较小变量值的分布次数都较少,中间变量值分布次数较多,绘制成的曲线图形状宛如一口古钟,这时就可以称该现象的次数分布为钟形分布,有时也称为丘形分布,如图3--4(a)所示。 由此可见,钟形分布的特征是"中间大,两头小”。 钟形分布在社会经济现象中最为常见,也最符合人们认识问题的习惯。例如,一个班级学生的考试成绩,差的和好的总是少数,居于中游者人数最多。 再如农作物单位面积产量的分布、一般社会居民收入的分布等,基本上都表现为钟形分布或接近钟形分布的分布特征。
B、U形分布:特征与钟形分布恰恰相反,靠近中间的变量值分布次数少,靠近两端的变量值分布次数多,分布特征是"两头大,中间小”。绘成的曲线图,形如英文字母"U”,如图3--4(b)所示。例如,人口在不同年龄上的死亡率一般近似地表现为U形分布。因为在正常情况下的人口总体中,幼儿死亡率和老年人死亡率较高,而中青年人死亡率较低。
C、J形分布:有正J形分布和反J形分布两种情况。次数随变量值增大而增多,绘成的曲线如英文字母"J”,称为正J形分布,如图3--4(c)所示;次数随变量值增大而减少,绘成的曲线犹如反写的英文字母"J”,称为反J形分布,如图3--4(d)所示。

D、洛伦茨曲线:是美国统计学家洛伦茨提出来的,专门用于检验社会收入分配的平等程度。洛伦兹曲线拓展可运用于其他社会经济现象,研究总体各单位标志分布集中状况或平均性。
基尼系数根据洛伦茨曲线提出的判断分配平等程度的指标。是20世纪初意大利经济学家基尼,根据洛伦茨曲线所定义的判断收入分配公平程度的指标。是比例数值,在0和1之间,是国际上用来综合考察居民内部收入分配差异状况的一个重要指标。

绿线代表绝对平均状态(即每个家庭拥有的财富相同)下,低收入人群所占人口百分比和总收入百分比之间的关系(财富占比等于家庭数占比)。
红线代表实际情况(实际是由财富--家庭分布曲线积分而来),这条曲线称为洛伦茨曲线。
基尼系数表示的是绿红线间面积与绿蓝线间面积之比。基尼系数越小,红线与绿线越接近,反映收入水平越平均,反之,基尼系数越大,红线与绿线越远离,反映财富向少数人集中。
基尼系数的实际数值只能介于0~1之间,基尼系数越小收入分配越平均,基尼系数越大收入分配越不平均。通常把0.4作为贫富差距的警戒线,大于这一数值容易出现社会动荡。
基尼数通常把0.4作为收入分配差距的"警戒线”,根据黄金分割律,其准确值应为0.382 。
一般发达国家的基尼指数在0.24 到0.36 之间,美国偏高,为0.45左右。
(三)统计表
1、统计表的结构
(1)从统计表的形式看,统计表由四部分构成。
①总标题:它是统计表的名称,用以概括表中统计资料的主要内容。
②横行标题:它是各组的名称,反映总体单位的分组情况。
③纵栏标题:它是统计指标的名称,说明纵栏所列各项资料的内容。
④数字资料:也称指标数值,它是统计表的具体内容,每一项指标数值都由相应的横行标题和纵栏标题加以限定。
(2)从统计表的内容看,统计表包括主词和宾词两个部分。主词是统计表所要说明的总体以及总体的各单位、各组的名称,或者各个时期。宾词是统计表用来说明主词的各个指标,包括指标名称、指标数值和计算单位。
2、统计表的种类:可根据主词的结构来决定,按照主词是否分组和分组的程度,分为简单表、分组表和复合表。
(1)简单表:是主词未经任何分组的统计表。例如,主词是由总体单位名称组成的一览表;主词是由地区、国家、城市等目录组成的区域表;主词是按时间顺序组成的编年表等等。表3--8就是简单表的一个例子。
(2)分组表:是主词按一个标志进行分组的统计表,利用分组来揭示现象的不同特征,研究总体的内部构成,分析现象之间的依存关系。表3-6就是分组表的一个例子。
(3)复合表:是主词按两个或两个以上标志进行复合分组形成的统计表。
3、统计表的编制规则
为使统计表的设计合理、科学、实用、简明、美观,在编制统计表时,必须遵守以下规则:
(1)统计表的各种标题,特别是总标题的表达,应该十分简明、确切,能够概括地反映出统计表的基本内容,总标题还应该标明资料所属的时间和空间。
(2)统计表的左右两端习惯上均不画线,采用开口式。表的上下横线最好用粗线,纵栏之间用细线分开,横行之间可以不划线。
(3)如果统计表的栏数较多,通常要加以编号,主词和计量单位等栏用(甲)、(乙)、(丙)等文字标明;宾词指标各栏用(1)、(2)、(3)等数字编号。各栏之间若有计算关系,可以用数字符号表示。如(3)=(2)×(1),表示第(3)栏等于第(2)栏乘以第(1)栏。
(4)表中数字应该填写整齐,对准位数,当数字为0或因数小可忽略不计时,要写上0;当缺乏某项资料时,用符号"...”表示;不应有数字时用符号"--”表示。
(5)表中的横行"合计”,一般列在最后一栏(或最前一栏),表中纵栏的"合计”一般列在最后一行。
(6)统计表中必须注明数字资料的计量单位,当表中只有一种计量单位时,可以把它写在表头的右上方。如果表中需要分别注明不同的单位,横行标题的计量单位可以专设一栏;纵栏标题的计量单位,要与纵栏标题写在一起,用小字标写。
(7)必要时,统计表应加注说明或注解,例如,某些指标有特殊的计算口径,某些资料只包括一部分地区,某些数字是由估算来插补的,这些都要加以说明。此外还要注明统计资料的来源,以便查考。说明或注解一般写在表的下端。