欢迎光临散文网 会员登陆 & 注册

SPSS统计分析从入门到精通

2023-06-08 10:19 作者:蛰哲折  | 我要投稿

4.4联列表分析

联列表分析是通过通过频数交叉表来讨论两个或多个变量之间是否存在关联,并提供了各种双向表检验和相关性测量。基本思路与假设检验基本一致,先建立一个零假设(原假设),认为两个变量之间是没有关联的,然后进行卡方检验,计算发展概率。通过概率是否达到显著水平来判断,接受或拒绝零假设。

联列表分析实践

分析——描述统计——交叉表格

选择行变量,列变量和层(分层变量是决定频数分布的层,如果选择多个分层变量,就要点击下一页)

“在表层中显示层变量”,选择该复选框以后,就可以创建视图,来显示行或列变量的整体统计以及允许深入层变量的类别。

“显示集群条形图”,选择后会输出集群条形图,帮助汇总各案组的数据。

“取消表格”,选中后不输出交叉表。

(一)三种精确检验方法

(1)仅渐进法

它是基于渐进分布计算的概率值,一般情况下值小于0.05,就认为是显著。

(2)蒙特卡罗

(3)精确

精确计算概率,当值小于0.05,就认为显著,行列变量之间相互独立。

(二)统计(statistics)

(1)卡方

卡方检验属于非参数检验,不存在具体参数,且不需要有总体服从正态分布的假设,是用途非常广泛的一种假设检验方法,主要用于研究定类与定类数据之间的差异关系,包括两个率或两个构成比比较的卡方检验;多个率或多个构成比比较的卡方检验以及分类资料的相关分析。

卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,如果卡方值越大,二者偏差程度越大;反之,二者偏差越小;若两个值完全相等时,卡方值就为0,表明理论值完全符合。

卡方检验零假设:不存在差异。结果:渐进显著性<0.05,否认零假设,说明存在显著差异。

注意:卡方检验针对分类变量。

(2)相关性

选择将生成相关系数,用来测量等级顺序之间的相关性。

(三)单元格

(1)观察值:实际的频数

(2)期望值:期望的频数

(3)隐藏较小计数:可以隐藏小于指定整数的频数。

5.1 平均值检验

计算一个或多个自变量类别中,因变量的值组平均值和相关的单变量的统计,也可以通过比较两个样本的均值来判断两个总体的均值是否相等。它的零假设就是两个样本的均值没有显著差异。

分析——比较平均值——平均值

(1)选项

左边给出了很多统计量。

Anova和eta(方差分析表)

显著性大于0.05,证实零假设,说明男性和女性的储蓄金额没有显著差异。

5.2 单样本T检验

单样本T检验的目的是推断样本数据的平均值和指定的检验值之间的差异是否显著。它的零假设就是样本数据的均值与检验值之间不存在显著差异。

分析——比较平均值——单样本T检验

显著性检验0.001小于0.05,拒绝零假设,认为样本数据平均年龄与50之间存在显著差异。

5.3 双独立样本T检验

在两个样本相互独立的前提下,检验两个样本的总体均数是否存在着显著差异,它的零假设就是两个样本数据的均值不存在显著差异。

分析——比较平均值——独立样本T检验


双尾显著性0.01<0.05,拒绝零假设,两组数据的均值存在显著差异,男女的受教育年限存在显著差异。

5.4 配对样本的T检验

在数据分析中,往往有些数据是成对出现的,是两个样本的一种特殊状态。配对样本T检验用于检验两配对总体的均值是否存在显著差异。零假设是两配对样本数据均值不存在显著差异。

实例:配对样本

变量1(苗高增长量1组 标签:不施肥)

变量2(苗高增长量2组 标签:施肥)

分析——比较平均值——配对样本T检验

配对样本相关性一表中显著0.395>0.05,可以看出两个配对样本之间的相关性不显著

配对样本检验的双尾显著性0.026<0.05,说明两个配对样本(不施肥和施肥)它们的均值是存在显著差异的,拒绝零假设。

6.1 卡方检验

参数检验,在已知总体分布的情况下,对总体的若干个参数均值、方差进行检验,这个就是参数检验。但很多情况我们对总体的数据、分布不知道的未知情况下,如果我们要通过样本来检验我们总体分布的假设,这种检验方法就是非参数检验。非参数检验应用范围很广,是统计方法中的一个重要组成部分。

相较于参数检验,非参数检验所需的假定前提条件比较少,不依赖我们总体的一个分布类型。就可以检验数据是否来自同一个主体。

卡方检验的目的就是通过样本数据的分布检验总体分布,总体分布与我们的期望分布或其他的某一个理论分布是否一致。它的零假设就是我们样本的总体分布与我们的期望分布或者理论分布无显著差异。

实例:利用卡方检验来检验骰子的点数是不是均匀分布的。即扔骰子🎲的点数是不是随机的。(共42组数据)

分析——非参数检验——旧对话框——卡方

期望全距

从数据中获取:所有数据都参与检验。

使用指定范围:可以自定义一个取值范围,在上限和下限中输入整数值。

期望值

所有类别相等:表明我们期望的分布是均匀分布

值:自己输入期望频数值


卡方值0.571,自由度5,渐进显著性0.989远远大于0.05,所以不能拒绝(证实了)零假设。样本的总体分布与我们的期望分布无显著差异。即骰子点数的次数是均匀分布的。


6.2 二项分布检验

在实际数据的处理中,有些数据的取值只能分为两类,比如合格/不合格、是/否、生/死等。通常我们用0和1代表这些数值,通常0代表男性,1代表女性等等。

二项分布(binomial distribution)就是对这类只具有两种互斥结果的离散型随机事件的规律性进行描述的一种概率分布。

二项分布检验(Binomial test)就是用来检验样本是否来自参数为(n,p)的二项分布总体的方法。其中n为样本量,p为比例。二项分布检验就是检验样本中这两个类别的观察频率是否等于给定的一个检验比例。它的零假设就是来自总体的分布与我们指定的二项分布无显著差异。

二项分布检验在小样本中采取的是精确检验的方法,在大样本中采取的是近似检验方法。

实例:检验一批灯泡的合格率是否达到95%

分析——非参数检验——旧对话框——二项式

定义二分法:如果检验是二分法,就选择从数据中获取。如果不是就在分割点输入数值,大于这个值和小于这个值各分为一组,也形成一个二二分变量。

检验比例:输入要求的0.95

观察到的比例93%,检验比例是95%。精确显著性水平(单尾)0.130>0.05,说明我们不能拒绝(接受)零假设。这批灯泡的合格率与我们指定的二项分布没有显著差异,即这批灯泡的合格率达到了95%。


8.2 两变量相关分析

相关分析是研究事物之间是否具有相关性及相关性强弱的一种方法。常用的就是线性相关分析。一些变量之间它的关系是特定的,比如说圆周长。除了这些特定性关系以外,很多变量之间的关系是不确定的,比如相同体积重量的人肺活量不是确定的,相同身高的人有不一样的体重,也就是说放一个自变量值以后因变量值并不是唯一的,它是在一定的范围之内波动的。如果研究这次不确定变量之间的相关性,我们就需要借助相关分析的方法。统计分析中常用相关系数定量的描述两个变量之间线性关系的强弱。如果因变量值随着自变量值的增大而增大,就是同方向,或者随着自变量值的减小而减小,我们就称为是正相关,相关系数大于0。如果它越接近1,就表明相关性越强。如果因变量随着自变量的增大减小,或者随着自变量值的减小增大,我们就称之为负相关,它的相关系数是小于0的。所以相关系数是描述线性关系强弱和方向的统计量。它的取值范围是—1到1之间。

根据数据不一样的特点通常采用的是不一样的相关系数。

第一个是线性相关系数即皮尔逊相关系数。它是用来度量具有线性关系的两个变量之间相关关系的密切及相关方向。它主要适用于能满足正态分布的数据。

第二个是斯皮尔曼(spearman)等级相关系数,相当于皮尔逊相关系数的非参数形式。经常用希腊字母ρ表示。 它是衡量两个变量的依赖性的 非参数 指标。 它利用单调方程评价两个统计变量的相关性。 如果数据中没有重复值, 并且当两个变量完全单调相关时,斯皮尔曼相关系数则为+1或−1。斯皮尔曼等级相关系数适用于有序数据和不满足正态分布建设的等间额数据,取值范围也在—1到1之间,绝对值越大,相关性越强。取值的符号(正负号)表示相关的方向。

第三个是肯德尔(kendall)等级相关系数。它是对两个有序变量或两个自变量之间相关程度的一种测度。也是属于非参数统计。


两变量的相关分析

实例:汽车的价格和汽车的马力之间是否具有相关性。

先用图形初步判断一下它们之间的相关性。

图形——图形构建器——散点图


可以大致判断出价格是随着马力的增大而增大,它们可能表现出一种正向关系。

分析——相关——双变量

相关系数:皮尔逊相关系数,斯皮尔曼等级相关系数,肯德尔等级相关系数

双尾检验:不知道是正相关还是负相关勾选双尾检验

单尾检验:事先知道了相关方向

标注显著性相关:在输出结果中,如果达到显著性水平,就会在右上角用一个*表示。如果达到0.01极显著水平的时候,它用两个*做标记。

双变量相关性选项:平均值和标准差,偏差和协方差都勾选上

缺失值:选择按对排除

皮尔逊相关系数标注了两个*,表示极显著。具有很强的相关性。


9.1 线性回归

回归分析是寻找变量之间统计关系的一种方法,应用很广泛。回归分析从广义上来讲与相关分析有共同点,它们都是研究对象之间存在的相互关联关系的方法。但从狭义上来说两者之间也存在差别。

SPSS统计分析从入门到精通的评论 (共 条)

分享到微博请遵守国家法律