《统计分析与SPSS的应用》课程精讲

SPSS统计分析软件概述
SPSS的英文缩写来源于以下两个:社会科学统计软件包和统计产品与服务解决方案。

SPSS目前来讲是全球最简便、最流行的数据统计分析软件,并且对其他数据库的文件都可直接读取(兼容性好)。
操作的时候主要分为数据编辑器窗口(主菜单与工具栏还有工作区,右下角代表spss的状态)和查看器窗口,用于输出数据的结果。
spss的运行方式有三张:完全窗口菜单方式和程序运行方式还有菜单程序混合运行方式,一般情况下我们都是用完全窗口菜单方式进行处理。

界面和保存
当我们打开spss的时候会出现一个对话框,询问我们是打开一个已有的文件还是新建一个新的spss,关掉后默认选择后者,打开一个新的英文窗口(调成中文的方法:右上角Edit——Options——Language——,找到Output里的chinese和User Interface里的Chinese。另外我们的电脑如果语言不兼容可以点击下面的Unicode通用字符集就会避免这种问题)。上面的一行是主菜单栏,下面的是工具栏,再往下的表格区域叫数据编辑区,最左下角有一个数据视图和变量视图,右下角是spss的程序状态栏。然后我们再看一下查看器的窗口可以发现也是主菜单加工具栏,而再往下就不是工作区了而是显示区,如果以后做项目需要保存可以保存。在数据编辑器的帮助里可以找到spss的帮助网站去学习,前提是要在联网的状态下。Spss有两个窗口,所以最后会保存成两个文件分,分别是sav和spv文件。
问卷表与数据结构
在spss中的数据编辑器窗口中每一行代表每一份调查问卷的结果,每一列代表问卷的问题。

定义变量
定义变量实际上就是定义spss文件的数据结构,而定义变量操作位于数据编辑器窗口的“变量视图”,对变量的定义包括11项内容,一下是数据编辑窗口的变量视图界面。

数字不能作为英文字母的开头,而包括内置函数and后or之类的等等,宽度如果没有设置就会按照系统默认的形式。缺失就是对一些有问题或不合理的数据进行筛选出来并进行标记。
数据的录入、编辑和保存
变量视图当中的最左边一列就是我们所定义的内容,想要插入的话就直接右键点击插入就好,想要改变名称就双击全选然后删除名字输入新的,想要删除可右击后点击清除(E)。在数据视图当中找到我们想要插入一列就右键点击添加,删除也是同样的道理,至于对这个字段进行修改,可在变量视图当中去做,如果想复制一行的个案或数据可直接右击选中的区域复制然后到自定义位置右击粘贴即可。我们可以在编辑当中点击找到个案,然后会看到转到个案号,输入的数字就是我们的第100行:如果不想按照行数查找而是按照内容查找,可在【编辑】里找到查找(F),然后输入的内容点击查找下一个就会显示出我们要搜索的内容,替换也是在这个弹出的窗口进行。保存的话可在文件中找到保存然后点保存或者另存为都是可以的,还可以对其保存类型进行设置,一般情况下都是保存一个sav的文件。
读取数据
不同软件之间的数据交换是极为重要的,而spss是一个兼容性很好的软件,可读取很多种不同文件格式的内容。在【打开】里有一个打开数据,我们可以选择其数据类型打开我们想要打开的不同类型的文件。
第二种就是使用文本想到导入文本数据,文本数据的扩展名一般为txt、dat、csv、tab等等,打开之后会弹出文本导入向导的界面,我们对其进行设置后即可,做完后大概率会发现基本上除中文乱码意外没有特别的问题。文件——导入数据——数据库——新建查询这种方式可以打开一个数据库(如果不是正版软件可能会缺失),找到我们要打开的数据库文件后选择数据后点击完成就完成了数据库的导入。
文件的纵向合并(举一个通俗的例子来说明,假设班里有七个同学,数据集中有这几个同学的信息,现在又来了几个同学我们需要把这几个同学的信息加到原先的数据集中,这个过程就叫做数据的纵向合并)
将一个spss文件中的数据追加到另一个数据文件中,要求两个spss文件之间要有同样的内容(变量名)。例如说我们是一个公司来了新成员,要把新成员名单的信息导入到总公司的全部人员名单中,就是两个数据之间的合并。点击【数据】——合并文件——添加个案,我们要打开要添加数据的spss文件。

左下角的活动数据集是我们当前进行操作的变量,数据集2是我们要追加的数据集的变量,income和zc1是数据集2的变量,这两个文件之中相同的变量(都有的)已经放到了右边,我们把需要配对的成对变量按ctrl进行配对,没有配对的就直接添加我们要添加的内容即可。
文件的横向合并(举一个通俗的例子,有一个数据集中存储的学生的信息和语文成绩,另一个数据集中存储着学生的信息和英语成绩,现在我们想要把英文成绩和语文成绩都合并到一个数据集中这个过程就叫做横向合并)
点击【数据】——合并文件——添加变量,找到我们要选用的数据表然后弹出一个对话框。

默认就是基于键值的一对一合并,对此两个文件中相同的变量的值就是职工号,点击确定后我们就会发现多了一列bonus(职工奖金)的列,如果职工号里没有40号这个个案也会整个增加一条个案。
横向的分析指的是和类似的事物或者同类的事物进行比较。而纵向比较指的是和相同事物的不同历史时期的情况进行比较。
数据排序
排序在数据分析中的作用:可以快速找到可能的离群点,一些操作需要排序作为前提。可以使升序也可以是降序,可以使一个变量的排序也可以是多个变量的排序。

点击【数据】——个案排序,找到我们首先要排序的变量转移到排序依据,然后下面有排序顺序的选择,点击确定即可,同时后转移的变量作为次排序变量。
查找重复个案
通常在数据分析的时候不应该出现重复的变量,例如数据录入的时候出现疏忽导致编号或学号等个案就需要对其进行查找。【数据】——标识重复个案,将我们怀疑可能重复的个案拖到定义匹配个案的一局当中,在查看器中可查找出有效的个案和缺失的个案,并且说明有几个个案重复了。
变量计算
变量计算根据用户给出的表达式对原本的变量进行必要的转换,主要包括以下集中类型,一种是spss的算式表达式(+、-、*、/、**)或spss函数以及spss变量名所组成,第二种是spss函数,如下图:

第三种是spss条件表达式,有spss关系运算符、逻辑运算符、spss函数以及spss变量名组成的式子。例如我们这次对于职业认知想要把Q1到Q6累加成一个新的变量,点击【转换】——计算变量,弹出一个对话窗口。

首先设置一下目标变量,也就是变量名,这里设为x2,数字表达式就是将四个数字相加,再看数据视图最后面有一个新的x2的变量,是由Q1到Q6相加而成。我们也可以用条件表达式的方式做,也是同样的操作点击【转换】——计算变量,弹出一个对话窗口,将其累加,不同的是我们要点击一下左下角的如果。

点击在个案满足条件是包括这个选项,然后将性别拖到右边的白框中加上=1(找到所有的男生),那么最后的结果就是只计算性别为1的变量,客观查到性别为0的x1是没有值的,所以这个相当于在计算的同时满足该条件的内容进行计算,不满足的不做生成变量。
个案选取
个案选取也就是数据的选取,就是从已收集到的大批数量据(总体)中按照一定的规则抽取部分数据,个案选取的方法可以按照条件选取,也可以按照随机选取或者选取指定区间中的样本。个案选取可提高数据分析效率和检验模型。点击【数据】——选择个案,弹出了一个对话框,选择所有个案就是没有选择,后面我们可以选择所有个案的百分比(随机个案样本)和条件个案还有选择个案的范围,也可以使用过滤变量,例如我们选择性别,再进行一筛选。

点击如果条件满足,点击Q3后要让他不等于1(就是选择了2和3选项的人),Q3<>1。最后面新增了一个都是1和0的变量,是0则是不满足条件的变量,左边的个案也会对应的被斜线所划掉。
个案内的值进行计数
计数是指对所有或部分个案,进行若干个变量中有几个变量的值落在指定的区域内,并将结果存入新变量中。指定需要参与计数的变量。点击【转换】——对个案中的值进行计数。

首先目标变量就是我们要生成的变量的值,目标白胸前可设可不设,就是对目标变量进行一个说明,定义值就是一个计数区间,计数区间就是对值的操作,定义一个为0的值,然后下面的如果和上面在学习变量计算时的用法类似,点击确定后我们会看到最后生成了一个我们输入的变量名的变量,其中因为我们选择了1到16的问题选择0选项的数量,因此gss下的数字是多少就说明有多少人在0到16个问题汇总有几个0,同时也可以对其用频率的方式。

分类汇总
分类汇总是指按指定的分组变量值对样本分组。例如说对比男女职工的平均年龄和奖金。
首先打开一个大学生职业生涯规划的文件,然后根据专业分类和x1(专业和职业认知得分),点击【数据】——汇总数据,专业分类移入分界变量,x1移入变量摘要,变量摘要默认是一个均值,如果需要改变的话点击函数可以改变成其它的。个案数就是样本的数量,我们可以直接写样本量。后面保存的方式我们可以创建一个汇总变量数据集,也可以创建一个新的数据集。这里我们新建一个数据表,

这个实验我们是用专业分类来进行的分类汇总,而数据则选用的是x1,x1的值就是q1+q2+q3+q4,该种方式可以得知不同专业的不同人得分的状态。
数据分组
首先要制定按哪个变量进行分组,并定义分组的区间,最后要注意制定存放分组结果的组标志变量。例如工资按照不同结果进行分组。

本次案例我们相对专业和职业认知得分(x1)进行分组,因为Q1Q2Q3Q4的值分别介于0~5分,所以x1的值介于0~20之中,之后我们设定分组区间,例如1到5设为1,5到10设为2,10到15设为3,15到20设为4。点击【转换】——重新编码为不同变量,首先找到输入变量x1拖入数字变量,然后我们要制定一个输出变量,名称必填而标签可填可不填,然后点击【新值和旧值】,对其范围进行设置,从最低到值设为5就是0到5,并在【新值】下设值的名称为1,后续在范围中进行类似操作名称依次为2、3、4,完成全部操作后下面还有个如果,这个如果我们默认是包括所有个案,但同时我们也可以指定其内容要求,例如像之前所操作只显示性别为1也就是男性的内容。最后的输出就可以看到多出了一个x1_new,这个数据变量所呈现出的就是1到4的分组情况,1就是1组,2就是2组,而这个数据是为了以后做准备,我们点击【分析】——描述统计——频率,然后我们可把x1_new拖过来,然后点击统计,可以选择我们将我们想要的数据勾选,还可以做图标,然后点确定即可。
数据专置
将数据的横和列进行转换,在excel里可以轻松实现,选择需要进行行列转换的内容,快捷键按下Ctrl+C进行复制,在空白区域点击一个单元格,快捷键按下Ctrl++Alt+V,则弹出选择性粘贴对话框,勾选“ 转置 ”,点击“ 确定 ”。返回到工作表界面后行列互换成功。
而在spss里如何实现呢?如下图:

首先打开我们所需要用的职工数据表,然后点击变量视图可以看到有职工号性别年龄等等,它没有排序,我们想把编号变成行,上面的变量变成列,点击【数据】——转置即可,名称变量如果不选会自动给出一组的变量,选的话往往是选择一个不会重复唯一的量。而最早的时候spss变量不能用数字作为开头,所以如果用数字进行开头,它会软件自动加一个英文符号。
spss的加权处理
例如调查观众对春节联欢晚会是否满意,不同百分比的人对该晚会会有不同的打分。
我们打开数据编辑器,然后点击血压和年龄,年龄这里有个分类,年龄段用不同的数字排序,血压范围也用不同的数字排序。这种情况下就需要我们用加权处理。软件的最右下角显示权重全开,就是代表我们可以对这个进行加权处理、所以以后我们做任何题目或练习时无法处理,可能是加权状态没有调整好。

可以看到当我们没有对数据进行加权后都是1或3之类的,所以说加权处理的意义在于经过加权处理之后会得到我们所理想的结果,而当我们不用的时候一定要把加权处理取消掉。
数据拆分
一个是对数据进行排序,另一个是对数据进行分组,打开数据编辑器,然后打开职工数据,我们可以看到变量视图有标签名称之类的,发现职称没有排序,如果我们想要对其进行拆分,分组的方式用职称,我们点击【数据】——拆分文件,然后出现一个对话框,然后选择我们要作为拆分的变量依据点击确定,然后可以看到文件拆分的结果就会按照1234重新排序并分组,并可以在右下角查看到拆分依据就代表它已经是拆分过了的。
频数分析

案例中使用的是大学生职业生涯规划表,书中要求让我们调查专业分布的状况以及对职业规划相关知识的了解,对这两个变量进行频数的分析:【分析】——描述统计——频率,然后出现一个频率对话框,将我们要分析的东西挪道变量当中,点击右侧的图标选择条形图,然后点击格式按照降序排序,点击确定即可。

可通过上图得知共919个个案,而又五个个案是缺失的,并分别配有不同的个案分类分别对应着多少个案与百分比是多少,规划课程知道亦是如此显示。

双击该图片可进入图标编辑器,对这个表格进行编辑与修饰,可以调整颜色或添加字体等等。那么如果说让我们用性别去对其进行分别显示,那么根据变量视图的性别一列可得知,点击【数据】——拆分文件——比较组,然后将要进行分组的依据挪到里面就已经按性别进行拆分过了,再按上面相同的操作显示图标。

由上图可知男生的个案有369,女生有529,而百分位数上百分之25的男生是8分,百分之50的男生是9分......最终可以看出男生的认知得分偏低,9是缺失值的表现,显示有19个,没有计算的是两个。
计算基本描述统计量
图一

图二

图三

图四

案例:打开大学生生涯职业规划案例,我们要建设专业基本认知统计量,计算男女生之间的差异。在做基本描述统计量时点击【分析】——描述统计——描述,然后我们将专业与认知得分放到变量当中,在最右侧的选项设置均值和标准差、峰度、偏度等,然后点击确定后就可以看到我们专业和职业认知的均值是13.2762,标准差是0.15150......

那么接下来我们比较一下男生和女生之间的差异,要做的是分类变量,首先要进行文件拆分:【数据】——拆分文件,点击比较组,然后将分组依据设置为性别点击确定,然后我们在数据编辑器的右下角就可以得知拆分依据是性别了,文件拆分成功。之后仍然点击【分析】——描述统计——描述,左下角有一个将标准化值另存为变量,勾选后点击确定可以看到变量视图多了一个x1z的变量,到时候后续可以通过这一列直接找到该表格。表格中,男生的专业认知得分是8.9分,女生是16.11,因此说明男生的专业认知得分远不如女生。从标准差错误的一列可得男生的评分是低估了,女生的评分是高估了,对于有缺失值的是16个个案,而有两个是不清楚。
交叉分组下的频数分析

卡方检验要求行变量和列变量是相互独立的,例如列是成绩评价,行是男女,研究成绩和性别的关系,而我们此次研究的是性别与专业选择的关系。点击【分析】——描述统计——交叉表,然后会出现一个交叉表的对话框,行变量放入性别,列变量放入志愿决定因素,统计时我们点击卡方检验,单元格我们要点击期望的计数,百分比要知道行列总计等等,格式是行的升序,左下角勾选上条形图可以更直观地显示结果。

由上图可知有二百七十个男同学是因为兴趣报的,而百分之三十四点五的人是因为时常就业的因素,女同学没有人是因为兴趣爱好,而是考虑时市场就业、能力优势等。下面的卡方建业可以看到p值【双侧】,以0.05为界,小于0.05则说明差异性很大,大于0.05则说明差异性不大,由柱状图也可以清楚地看到男女生差异是有的而且很大。下方的年龄和血压的交叉表关系也是如此:

卡方检验设为0.05的话因为值大于0.05,则说明行变量和列变量是相互独立的,也就说明血压和年龄之间没有什么差异。
多选项分析

多选项二分法意思就是将多选项的每个答案都定义为两个值,例如说有个问题有八个选项,我们在涉及的时候都将这八个选项设为0或1,意为两个答案。多选项分类法就是好比在八个问题中选三个变量,在这八个选项中挑一个答案。
此次练习调查老年人保险的原因

q13a和q13b和q13c三个变量除了名称不同外都是一样的,点击【分析】——多重响应——定义变量集。

集合中的变量就是把我们的q13abc分别放进去,范围是1到7(因为总共有七个问题),名称随便设一个,然后标签设为购买商业养老保险的原因,变量集做好后对其进行一个频率的分析,点击【分析】——多重响应——频率,将我们定义好的变量集挪到右边,就可以看到我们的图标上显示,有31.1%认为有利于晚年生活的保障。同样还是这个图表,分析不同单位的性质对于商业养老保险的模式有何不同,点击【分析】——多重响应——交叉表,找到工作单位性质右键点击信息可以看到有九个选项,将其放入行中范围设成1到9,列就用我们刚才设置的那个变量集。

这样我们就得到了一个q34和我们建立的变量集的交叉表。
比率分析:比率分析适用于数值型变量,比率分析用于对两个变量之间的变量值的比率变化的描述分析,例如根据各地区保险业务情况的数据,分析财产保险业务和保费收入占全部业务保费收入的比例情况。
点击【分析】——描述统计——比率,然后会弹出一个比率统计对话框,讲财产保险保费收入放进分子,分母放入全部保费收入,分组选择地区,然后点击统计,我们选中平均值和AAD、COD、中位数居中和和平均值剧中,点击确定即可得出两个表格,分别是个案处理摘要和财产保险保费/全部保费收入的比率统计。
单样本t检验

统计分析方法分为两大类:描述统计和推断统计。

假设检验的四步骤

1. 单样本t检验:信用卡消费
单样本t检验的目的是利用来自某总体的样本数据,推断该总体的均值是否与指定的检验值存在显著差异。它是对总体均值的假设检验。我们此次的实验目的是探讨月平均消费是否大于3000元,首先打开spss然后打开信用卡消费表,总共有500个个案,我们现在来做一个单样本t检验,点击【分析】——比较平均值——单样本t检验,然后将这个表里惟一的变量放入检验框内,点击选项可设置百分比,一般都是百分之九十五,点击确定后即可看到结果。

判断信用卡刷卡金额的平均值是否不低于3000元,由于该问题涉及到的是单个总体,且进行总体的值建安,同时月刷卡金额的总体可近似认为服从正态分布,因此可以用单样本t检验进行分析。个人理解:当只有一列数据的时候,我们就可以采用单样本t检验,手动设置一个值作为鉴定这列数据平均值是否有百分之九十五的样本大于满足我们规定的这个值,如果满足则显著性会小于0.05。

通过上图可得知样本总数(N)为500个,同时总体刷卡金额的平均值为4781高于我们所预期的三千元,这一点同时也可以从显著性得知(显著性为0.000代表我们有百分之九十五的把握消费人群在三千以上)。平均值不能代表什么,因为有可能会因为个别人将总体值拉的很高,主要看一下第二列,有那个平均值的差值除以标准误差值得出的值是5.371,自由度得出的是样本数-1,而双尾是0.000,因为我们是单侧检验所以要除以2,最终还是0,差值95%置信区间的值(上限和下限)都加上三千最终可以得出数据的范围。所以我们又百分之九十五的把握认为该地区的信用卡消费高于三千元。
2. 两独立样本t检验:大学生职业生涯规划
研究男生与女生的专业和职业认知的人的平均值是否存在明显差异,可将男生和女生认知得分数据看做来自两个近似服从正态分布的总体的随机独立样本。可采用两独立样本t检验进行分析。
个人理解:独立样本t检验是建立在单样本t检验的基础上,可以对其进行分组,通过分组来判断不同的组之间是否存在明显差异曼本题的例子是对于认知得分以性别作为分组判断差异性,也可以用在判断不同分组的销售团队之间进行对比。

由本图可知男生的样本个数为369,女生的样本个数为529,且通过平均数可得知男生的专业认知得分不如女生,而这之间的差异程度可从显著性得知这一差异性是巨大的,因此在提高大学生职业生涯认知这方面应着重从男生入手。
3. 两配对样本t检验:减肥茶数据

个人理解:配对样本t检验的目的是在于对比相同样本前后所发生的变化,因此要保证的两点一个是在相同样本的基础下且数据样本数相同,对比前后数据的差异性得出是否发生改变。

为研究某种减肥茶是否具有明显的减肥效果,某机构对35名肥胖志愿者进行了减肥跟踪调研,将减肥前后的数据依次记录,数据记录间隔为三个月,通过对比相同样本数据的前后差异来判断减肥茶是否有效。

通过上图得知减肥前的体重(喝茶的体重)为89.2571,喝了减肥茶后的体重(喝后体重)为70.0286,且这两条数据都是建立在相同样本数量且相同样本的基础上进行的前后两次不同数据的变化趋势。由成对样本鉴定结果表可得知服用减肥茶后的体重平均每人可以剪下19.22857kg,其百分之九十五的人都是在16到21之间,再根据显著性为0.000可得出结论:服用减肥茶对于减肥有效果。
4. 单因素方差分析:广告地区与销售额

个人理解:单因素方差分析可判断变量与因变量是否有直接关系,换言之就是一个样本数据能否作为另一个样本数据的变量。
由上图可知,不同的广告形式与投放地区都会直接影响我们的销售额,且显著性都为0.000意为此影响力是巨大的,因此我们要在进行广告形式的选取与投放地区都要慎重。
5. 多因素方差分析:广告地区与销售额
某企业在制定某商品的广告策略时,收集了该商品在不同地区采用不同广告形式促销后的销售数据,希望对广告形、地区以及广告形式和地区的交互作用对销售额产生影响进行分析。
个人理解:单因素方差分析是研究单样本是否会对另一个样本数据产生影响,而多因素方差分析是在单样本方差分析的基础上研究:在两个样本都对同一个样本产生必要联系影响的情况下,这两个样本之间的交互是否会对其产生影响,好比一个人得了糖尿病的原因来自于经常和饮料与甜食,那么我们就可以研究甜食与饮料的交互作用是否会对其得糖尿病产生影响。

由上图可得知在两个样本(地区和方式)都对销售额有显著影响的前提下,二者之间的交互对其是不具有影响的,这一结论体现在显著性在x1*x2那一行为0.286是大于0.05的,不同地区采用哪种形式的广告都不会对销售额产生显著影响。
6. 协方差分析:生猪与饲料
为研究三种不同饲料对生猪体重增加的影响,将生猪随机分成三组各喂养不同的饲料,得到体重增加后的数据,但我们不可否认的是生猪体重增加在理论上有可能是因为其自身身体条件等因素的影响,因此我们收集生猪喂养前的体重数据,作为自身身体条件的测量标准。
个人理解: 我们在判断一个变量由A改变成为B时可能是因为原因C,那么我们不能仅观察变化是否与C有关,不然就像做配对样本t检验一样了,我们要知道的更多,要知道C所影响A发生变化有可能是因为A本身的因素影响的。

由上图可得知我们的三组数据每一个样本数量都为8,而显著性皆为0.000代表喂养不同的饲料猪体重的增加是有显著影响的,并且影响很大。
参数检验的前提是数据服从或接近方差分析,而若果没有服从方差分析,样本的容量比较小的情况下,小样本或总体分布位置偏差不齐的情况下,在不满足参数检验的情况下只能选用非参数检验。

非参数检验是在总体分布或知道的很少的情况下,利用样本数据对总体分布分布形态或各总体的分布是否有显著差异进行推断。
单样本卡方检验
卡方检验是根据样本检测是否符合某种规律,在给出的表中显著性若大于0.05,则说明没有显著性差异,预测和实际是相符合的。显著性如果比0.05要大,则说明没有显著性差异,理论上的假设周一到周日死亡人数是2.8:1:1:1:1:1:1。

二项分布检验
生活中很多方面我们都可以分为两种,一种是合格或不合格,通过或不通过等等,通过样本检验总体是否符合二项分布。我们这例子是用来预测产品的合格率,因为一个产品有合格或不合格,通过二项分布来检验产品能否合格大于百分之九十。通常将这样的值分别用1和0表示,如果进行n次相同的实验,则出现两类(1或0)的次数可以用离散型随机变量来描述。

这个实验我们只有一个变量是是否合格,合格是1不合格是0,总共有23个样本,找到二项检验将样本拖到检验变量列表,检验比例设为0.9也就是90%,最终的结果是合格了19个不合格的是4个,检验的是合格的比率是否低于0.9,最后概率的值是0.193,没有显著差异,大于显著性水平说明我们不应当否定假设,则没有充分的理由证明合格品的比率显著低于百分之九十。
单样本K-S检验
单样本K-S检验:该方法可以样本数据推断样本来自的总体是否服从某一理论分布,是一种拟合优度检验方法,通常用于探索连续性随机变量的分布。我们此次的例子是利用收集到的一批周岁儿童身高的样本数据,推断周岁儿童总体的身高是否服从正态分布。

变量视图中有六个变量,我们只考虑身高的变量样本即可。找到单样本非参数检验然后打开将其拖到检验变量列表即可。其中“常规”就是正态分布。结果的个案数有21个,显著性耳朵p值是0.022,小于显著性水平0.05的,说明我们不接受原假设,也就是说周岁儿童身高的总体分布不符合正态分布的假设(原假设是没有显著差异)。
变量随机性检验(游程检验)
通过样本变量值的分析,实现对总体的变量值出现是否是随机的进行检验。变量值随机性检验的原假设是H0位总体变量值的出现是随机的。例如时候我们抛了28次硬币所得出的正反面的观测值为1011011010011000101010000111,那么它的游程数为17(单个的0与0组合还有1与1组合还有单个的1和0组合也是一个游程)。所以游程数如果太大或太小都说明它不是随机的。

以“中位数'进行分割。计算出的概率为0.491,大于显著性水平,检验的结果(检验值)是204.55,小于检验值的是十个,大于或等于这个值的是10个,最后的显著性是0.491大于0.05,不拒绝原假设,认为数据是随机性的,所以是正常的(如果不正常则不是随机的)。
两独立样本非参数检验
在对总体分布不了解的情况下,通过对两组独立样本的分析来推断样本来自的两个总体分布是否存在显著性差异。独立样本是在总体中随机抽样对另一个总体中随机抽样没有影响的情况下所获得的样本。本题使用甲乙两种工艺所生产的产品抽样使用寿命的两个样本,检验其分布时候有不同的差异,进而对其优劣进行一个客观的评价。

独立样本是基于甲乙两样本互不干扰,数据可以相互挪动(相对应的就是配对样本,例如之前的减肥茶案例的数据是不可互相移动的)。检验的变量是使用寿命,分组变量是gy,并选中以下四种检验方式后会出现很多图,首先的第一个是曼-惠特尼检验科知个案书分别为7和8个,一起对应的平均值和总和,下图的检验统计图可知渐进显著性为0.005,精准显著性为0.004,由于他是一个小样本的数据,所以我们采用精准显著性,当然无论选择哪种显著性都是远远小于0.05的,所以我们拒绝原假设,认为甲乙两种寿命的分布是存在显著差异的。莫斯检验是极端检验结果,也是有两个p值,注意这个是单尾的,无论哪个都是大于0.05,说明无显著差异与上面的结果相反。

第三个检验方式是0.037小于0.05,存在显著差异,最后一种瓦尔德-沃尔福威茨是0.149说明不应该拒绝原假设说明没有显著差异。总结第一种拒绝,第二种不拒绝,第三种拒绝,第四种不拒绝,所以说用不同的方法得出的结果是不一样的,需要我们人工进行取舍与比较其差异性选出我们需要的数据。
多独立样本非参数检验
多独立样本非参数检验是通过分析多组独立样本数据,推断样本本来自的多个总体的中位数或分布是否存在显著差异。多独立样本是指按照独立抽样的方式进行检验。

本次案例是给了四个城市的周岁儿童身高的四独立样本,用多独立样本非参数检验的方式对其进行检验,分组分别为北京上海广州成都,我们对其进行一个分析。点击【分析】——非参数检验——旧对话框——K独立样本,出现了一个针对多个独立样本的检验对话框,将要检验的数据样本放进检验变量列表并分组点击确定。

检验结果图标可看出kw统计量是13.9,伴随的概率显著性是0.003小于0.05,说明总体分布有显著差异,则说明四个城市周岁的儿童身高有显著差异。那么接下来看中位数检验时图标的中位数时74,显著性为0.01也是拒绝原假设,说明不同城市周岁孩子的身高有显著差异。最后再看jk的检验也是如此,a<p。

从中位数检验来看中位数是74,卡方是16.768,显著性是0.001,从结果来看是拒绝原假设,四个城市儿童的身高是有显著差异的,而用中位数来检验这个案例只能做一个参考,因为有8个单元格期望值的概率低于5。
两配对样本的McNemar检验
两配对样本的McNemar检验是配对样本的参数检验,再对总体分布不甚了解的情况下,通过对两配对样本进行分析,推断样本来自的两个总体的分布是否存在显著差异。点击【分析】——非参数检验——旧对话框——2个相关样本(配对样本),这里黑我们之前学习的内容差不多,都拖到检验对的框框里然后我们这里选用的是麦克尼马尔(M)的检验方式点击确定。

第一个表格可以看出学习前的认识由不重要变为重要的由四位同学,学习前认为重要学习后认为不重要的有两个同学,其他的不变。第二个表格个案数是,双尾是0.687,单尾则是0.3435大于0.05则说明没有显著变化。
两配对样本的符号检验
它的原假设是两配对样本来自的总体分布是没有显著差异的,第二个样本的每一个观测值减去第一个样本的观测值,减完后比较正负号的差异去观察结果,如果正号个数和负号个数相差较多,则可以认为两个配对样本的总体分布差距较大。我们的内容一个是训练前一个是训练后,这个是他们跳远的成绩,点击【分析】——非参数检验——旧对话框——两个相关样本,将训练前和训练后的成绩选进来,然后选中检验类型当这种的威尔科克森检验和符号检验。

因为我们设定的显著性a是0.05,因为它大于我们的原假设没有显著差异,所以我们得知没有显著效果。

符号检验中可得治一人保持不变,七人得到了进步,两人得到了退步,因为我们这个是一个双尾,所以单侧概率就要除以二,也是大于0.05,两种方法均没有显著效果。
多配对样本的Friedman检验
多配对样本的非参数检验是通过分析多个配对样本数据,推断样本来自的多个总体的中位数或分布是否存在显著差异的方法。例如,手机乘客对多家航空公司是否满意的数据,分析航空公司的服务水平是否存在显著差异等。

首先打开促销方式的文件,有三种促销形式,我们获得了销售额,一共是十组,我们点击【分析】——非参数检验——旧对话框——K个相关样本(s),进入后将这三种促销形式都放进检验变量当中然后点击确定,这样我们就得到了一个检验结果。

它的数平均值在表1,而检验统计的方式在下面的表,p值为0.045,低于我们设定的0.05,拒绝原假设,因此我们认为不同形势下销售额的形式是存在显著差异的。简单地看也可以直接看表1,促销形式2可能会更好一些。
多配对样本的CochranQ检验

如果每一组的样本出现了1和0,那么选1的概率大致相等,如果选1的概率大致相等则不存在明显差异。本次案例是针对甲乙丙三个航空公司的满意度进行分析,1为满意0位不满意。变量视图酒分别是航空公司甲乙丙,值是1和0.数据视图是十五个乘客同时对三个公司打分。【分析】——非参数检验——旧对话框——K个相关样本,将三哥公司都放进检验变量当中,因为我们这是进行Cochran检验,所以只选择检验类型当中的柯克兰Q检验。

可以在概率图中查看到满意和不满意的值分别是多少,而检验统计图中可看到伴随概率是0.001,p值小于显著性a,则拒绝原假设,我们可以得出三家航空公司的满意度是存在显著性差异的。
多配对样本的Kendall协同系数检验

通过案例可知有六名歌手参加比赛,四位歌手进行打分,变量是六位歌手的分数,这是一个多配对的样本(四个评委都是不变的)。【分析】——非参数检验——旧对话框——K个相关样本,将这六名歌手的变量值都导入到检验变量当中,由于傅莱德曼和肯德尔是有相关关系的所以我们两个都要选,点击确定即得到检验结果。

Kendall检验可看到1到6号选手的的平均数以及统计检验结果,p值是0.002,伴随概率小于我们显著性a,拒绝原假设则说明各个歌手的评分是存在显著性差异的,而Kendall喜事接近于1,则说明各个评委的系数是一致的。
相关分析的概述和散点图
相关分析是分析客观事物关系之间的数量分析方法,这种关系主要分为函数关系(确定性关系,例如说销售额和销售量、圆的周长和圆的半径......)和统计关系,同级关系例如说一个y的变量其影响因素有多个,例如收入和消费还有身高和遗传。统计关系即为线性关系分为正线性关系和负线性关系还有非线性相关(统计关系不像函数关系那样直接,但却普遍存在且有强有弱)

绘制散点图通过点的分布和形状判断其关系,首先看散点图是一个非常直观且常用的分析方法,判断其关系如下图:

本次实验我们看的是分析腰围、体重和身高的关系,打开【图形】——旧对话框——散点图,然后发现有五种散点图,我们就点击常用的简单散点图即可,Y轴和X轴分别是腰围和体重,判断腰围和体重的关系,如果想对其进行调整,即可双击打开图标编辑器,上方的就有编辑栏,可以点击【选项】——分箱元素(E)——标记大小里面目前已经自动调整了,这些比较大的原点说明周围的数据点比较多,小的则相反,判断这些点之间有没有什么关系,可知这是一个正相关关系,也可以双击在图标编辑器下点击上方的【元素】——总计拟合线——勾选拟合方式里的线性即可看到该图标的线性关系。
更多的散点图练习题:
第一题【客户满意度和竞争力】
第一步是将数据导入,首先是新建数据,总共有两列,一列是客户满意度,另一列是综合竞争力。通过观测散点图可的得知这是一个正相关的图。也可以双击打开图标编辑器,勾选拟合方式里的线性即可看到该图标的线性关系。

所呈现的满意度直观上可得出客户的满意度越高,综合竞争力也就越高,而皮尔逊相关系数(【分析】——相关——双变量)如下图可知:十五家企业是样本,而我们也不局限于这十五家企业,具有非常强的相关关系,通过这个例子得以实现。

第二题【销售额和销售价格和销售收入】

本题是建立三列数据,销售额,销售价格和销售收入。先绘制销售价格如何影响销售额销售额是Y,价格是X,销售价格越高,销售额就显得越低。所以通过散点图得知定价不能过高,不然就没人买,另外一个家庭平均收入,此刻我们将X轴换成家庭平均收入,就会发现先相较于刚才变弱但也是正相关的。我们试一下把家庭平均收入去掉后试一下会不会更好一些之前先算一下相关系数。【分析】——相关——双变量,先算销售额和销售价格,发现是负相关(-0.933),说明这个趋势是项下的(也可以通过散点图得知,散点从左到右依次向下),而销售额和家庭平均收入的双变量的相关性是0.88说明也是很强的相关性。偏相关分析:算销售额和销售价格,剔除掉家庭平均收入后可看到相关性不到百分之八十了,而是百分之七十二点八,所以我们把第一步做了之后效果就已经很好了,那么在做偏相关分析之后效果反而变差了,因此没有太大必要做偏相关分析。
计算相关系数
散点图可以直观地表达二者之间的关系,但无法通过精确的数据来研究,因此相关系数可以计算两个样本的相关系数以及对两个样本是否存在显著特征关联进行判断,具体如下图:

相关系数r的取值在-1~+1之间,r>0则是正相关,r<0表示负相关,r=1表示两变量存在完全正相关关系,r=-1表示两变量存在完全负相关关系,r=0表示两变量不存在线性相关关系。

计算腰围和体重之间的相关线性系数关系:
打开腰围和体重数据表,点击【分析】——相关——双变量,将腰围和体重挪到变量当中,相关系数点击皮尔逊(N),显著性选择双尾并标记显著性相关性点击确定。

图标当中腰围和体重的皮尔逊相关系数,0.853的体重是大于0.8代表强相关且有两个*,则拒绝原假设(原假设是两个数据没有线性关系),则说明腰围和体重有很强的线性关系。
偏相关分析:在分析两个变量之间的关系时,还有可能有其他的因素对两个要分析的变量造成影响,因此我们要把这种因素去掉,对于可能对我们要研究的变量造成影响时的变量的关系去进行控制,也叫被控制的变量,如果被控制的变量个数为两个时,则叫二阶偏相关系数,而如果是一个那么就叫一阶偏相关系数,后面以此类推(如若为零时则被称为零阶偏相关系数,也叫相关系数)。然后我们要对样本来自的两总体是否存在显著的净相关进行推断,详情如下图:

打开腰围和体重数据表,点击【分析】——相关——偏相关,将腰围和体重挪到变量当中,而下面的控制也就是被控制的变量,将脂肪比重挪到下面去进行被控制,显著性选择双尾并标记显著性相关性点击确定。结果如下图:

由图可得治在提出了脂肪比重的情况下体重的相关性变成了0.709,仍然是呈正相关的关系,则依旧是拒绝原假设说明体重与腰围是由显著差异的。
回归分析

回归分析的步骤:
- 确定回归分析中的解释变量(自变量)和被解释变量(因变量)
- 确定回归模型:根据函数拟合方式,通过观察散点图确定通过哪种数学模型来概括回归线
- 建立回归模型:根据样本数据,估计出模型中的各个参数,得到一个确定的回归方程
- 对回归方程进行各种统计检验
- 利用回归方程进行预测

我们分析的最多的就是线性回归模型,线性回归模型分为一元线性模型和多元线性回归模型。
一元线性模型(只有一个解释变量的线性回归模型)

多元线性回归模型(有多个解释变量的线性回归模型)

拟合优度和回归方程显著性检验的关系:
- 回归方程拟合优度越高,回归方程的显著性检验也会越显著,回归方程的显著性越显著,回归方程的拟合优度也会越高。
- 回归方程的显著性检验是统计学上的假设检验问题,但拟合优度并非假设检验问题,可以看作是一个统计量,它不涉及解释变量和被解释变量总体线性关系的推断。

回归方程的显著性检验和回归系数的显著性检验的关系

四:残差分析(残差:是指回归方程计算所得的预测值与实际样本值之间的差距)
残差的独立性分析残差序列的独立性也是回归模型所要求的。
残差序列应满足cov(e:,;)-0(ij)、表示残差序列的前期和后期的协方差等于 0,它们之间不存在相关关系,即不存在自相关残差序列存在自相关会带来许多问题,如参数的普通最小二乘估计不再是最优的,不再是最小方差无偏估计;容易导致回归系数的显著性检验的: 值偏高,进而容易拒绝其原假设使那些本不应保留在方程中的变量被保留下来,最终使模型的预测偏差较大。残差的独立性分析可以通过以下三种方式实现。


最后一个就是条件指标:0<k<10无多重共线性:10<=k<=30较强;k>=30严重。
六、线性回归的基本操作
案例:研究体重和体内脂肪比重的对腰部的影响,随机收集了20个观测数据,现利用一般线性回归分析方法进行研究。,在这里,被解释变量为腰围,解释变量为体重和脂肪比重。点击【分析】——回归——线性,打开线性回归对话框,然后将腰围挪到因变量,自变量一个是体重另一个是脂肪比重,方法就是我们讲的向前或向后还有逐步回归,我们选择步进(逐步回归)。

【图】是对残差序列的分析:
- 被解释变量
- 标准化的预测值
- 标准化的残差
- 剔除的残差
- 调整的预测值
- 学生化残差
- 提出的学生化残差
我们这里选择标准化的残差作为Y,标准化的预测值作为X。
【保存】是可以像回归分析的结果用spss的变量进行保存,选中残差当中的未标准化和标准化。
【选项】默认选中的是使用F得到概率,进入默认为0.05,剔除为0.1.
WLS权重就是我们用加权最小二层法来替代普通最小二层法做估计时,指定一个变量作为权重变量

我们使用F的概率值为标准的解释变量能否进入或者剔除的变量。

因为我们采用的是逐步回归法,所以给了两个模型,左上角的图有两个模型,一个是一元线性模型,第二个是二元线性模型。一元模型的R房是0.775,调整之后增加到了0.881。右边ANOVA图的模型一的SSR是217.829,SSE是59.121,模型二的SSR是247.541,SSE是29.409,显著性均为0.000,则说明我们拒绝原假设,从多远回归方程的结果来看说明是存在显著关系的,并且选择线性模型是合理的。
回归系数的检验结果如下图:

模型一和模型二的第二列30.058和0.354就是回归系数,而后面是标准误差,相除之后就得了t统计量和双侧的p值,8.144伴随的显著性是0,因此拒绝原假设说明是由显著性关系的,这个自变量应保留在模型当中。而排除的变量体重的t值是4.144,显著性是0.001,说明线性关系比较显著,这个变量是可以引入的,我们又回到了第一个表格当中,脂肪的比重可以看到都发生了变化,因为我们引入了体重(模型一是只有脂肪比重),可以得知脂肪比重要比体重贡献的越大(0.227>0.65),在医学上解释为看一个人是不是胖应该看是脂肪体重比较重。容差(容忍度)是0.515,VIF(方差)是1.943,都说明多重共线性是比较弱的。第三个表格是共线性诊断表,特征值里最大的值是2.888,第二列的条件指标最大的应该是第三列二十多,其它的都小于10说明多重共线性都比较弱。

我们现在来做一个k-s检验,回到数据编辑器,点击【分析】——费参数检验——旧对话框——单样本k-s检验,将Unstandar导入检验变量列表点击正态即可得到一个表格,对于残差的k-s检验。

原假设是样本和总体之间没有显著的差异,我们只需要看一下伴随概率的p值是一个渐进显著性的双尾是0.2,大于0.05则接收原假设说明它(残差)是符合正态分布的结果。
带虚拟解释变量的回归分析

案例:为研究工龄对性别对月基本工资收入产生的影响,随机调查了30名职工得到的月工资、工龄和性别数据。点击【分析】——回归——线性,在线性回归的窗口里将基本工资挪到因变量,自变量里放是否男性和工龄,前面我们说过输入是向前,点击确定。

曲线估计

在SPSS中回归分析相对而言比较简单,但如果想要深入地学习回归分析还需要学习其它的软件。
例题【全国城镇居民家庭消费支出】:收集到1993--2012年我国城镇居民家庭消费数据,希望分析城镇居民家庭人均消费支出对其食品消费支出的影响。

主要研究第二第三两个变量:【图形】——旧对话框——散点图——简单散点图,进入简单散点图编辑框,将Y轴设为人均食品消费支出,X轴为人均现金消费图。最终得到散点图如下:

有几个点就有几个样本,得知人均现金支出越高,那么食品支出的现金也就越高。然后点击【分析】——回归——曲线估计,出现曲线估计对话框,因变量也就是我们要分析的,选择食品消费支出,变量是现金消费支出,勾选在方程中包括常量与模型绘图两个选项,然后再勾选模型中的线性和二次两个选项并勾选显示ANOVA表(Y)后点击确定即可得到分析的结果(线性分析、方差分析、线性回归的系数、二次的模型摘要以及方差分析结果还有二次项系数以及人均食品消费支出的图形)。

左边是R方右边是方差分析的结果,二次曲线也就是说二次平方回归的方程。最下图的R放是从模型摘要里来的,F的统计观测量是从方差表里来的,常数项和b1与b2是从下图来的:

后面的是t统计量的观测值和p值,主要是看回归系数伴随概率的p值,设a为0.05,结果小于a所以拒绝原假设说明有显著关系。

序列图的画法:点击【分析】——时间序列预测——序列图,变量就是我们要研究的量(人均食品消费支出),时间轴就是年份,最终就得到了以恶搞人均视频消费支出的序列图如下:

点击【分析】——回归——曲线估计,因变量放入食品消费支出,变量设为现金消费支出,然后再勾选模型中的线性和二次两个选项并勾选显示ANOVA表(Y)后点保存,展开的保存窗口勾选上预测值(P)和预测个案中的从估算期到最后一个个案的预测下面的预测返回,我们的预测是到20个样本也就是二十年,那么如果我们想要预测未来两年的值就输入22,也就是添加两个预测的变量。

t统计量的伴随p值都小于0.05,说明通过了我们回归性的检验:拒绝原假设有显著差别。
回到变量视图当中可以发现多了两个变量,一个是一元线性回归的方程,另一个是一元二次曲线的分析预测值,点击【分析】——时间序列预测——序列图,变量中放入现实中我们所获得的观测值(样本)与预测值之间的区别,也就是说一个是人均食品消费支出和CURVEFIT食品人均消费支出,而时间轴标签就是年份t,点确定即有下图:

红色的线就是我们所拟合的曲线,而蓝色的就是真是的支出,可以看到右边的2013和2014是确实的值但是我们已经预测出来了,就是在FIT_4下面的两个值,而这个拟合曲线还可以进行调整,双击图表后进入图表编辑器点击红线后点属性窗口,样式设为虚线就可以了。
K-means聚类分析(快速聚类、K-均值聚类)
mean就是均值的意思,加了s就是多次的意思,意味多次聚类或快速聚类,处理大样本效率比较低时的问题,提高聚类效率。
做法:
- 通过用户事先指定聚类数目的方式提高效率
- 因此,层次聚类可以对不同的聚类数而产生一系列的聚类解,而快速聚类只能产生单一的聚类解。

案例【小康指数】:

点击【分析】——分类——K-均值聚类,变量是六个变量全部,而个案标注依据就是省市,聚类数设置为3类,方法一个是迭代与分类(表示在聚类的分类步骤中每一步确定一个中心点),而仅分类代表中心点始终只选用最初的那个中心点(只进行一次的迭代),保存当中勾选【聚类成员】和【与聚类中心的距离】,选项当中勾选【初始聚类中心】和方差分心的表两个选项点击确定,结果如下图:

左边的表展示了三个类初始的中心点的数据,第二类和第三类的中心点的数据,最好看的应该是第二类。而右边的图则是中心点的偏移。三类迭代的第二次迭代结果均为0。

从聚类中心点来看还是第二类的数据比较好,而每个聚类中的个案数目说明第一类有七个自治区,第二类是三个,第三类是是一个,下面的是方差分析表:

单因素的方差分析不适用于进行对比,我们主要去关注F值的大小,F值越大表名组之间的差越大。

最后我们又生成了两个变量,第一个是个案聚类的编号,第二个是距离分类中心的距离,下图更加直观地显示出来:

可知最好的第二类是京津冀,剩下的分别是第一类和第二类,通过K-means分析之后发现黑龙江由第三类变成了第一类(与层次分析不太一样)
案例二:根据五座商厦购物环境和服务质量的顾客评分数据,利用K-Means聚类分析方法按照优秀、良好、合格的总体水平将它们分类。

点击【分析】——分类——K-均值聚类,变量就是两个(购物环境和服务质量),而商厦编号设为个案标注依据,良好优秀及格三类所以聚类数设为3,这次我们仅分类即可不需要迭代,聚类中心要选择外部的文件(商厦类中心),迭代不需要选,保存的话我们要把聚类成员和聚类中心的范围都选,选项的话方差表也可以选一下然后点击确定。

在这个变量视图新多了两个变量:个案聚类编号和个案距离其分类距离的变量,结果中AB数3,CD是2,E是1,详情如下图:

初始聚类中心给出的是标准,而最终聚类中心是我们最后的结果,个案数目和方差图如图所示即可,右下角的图我们可以知道哪些是优秀(E)哪些是良好哪些是及格,这里再解释一下商厦类中心的表我们制定了123三种中心点,这个是用户自己设定的,一共有三个变量,第一个变量必须是cluster_。
异方差分析
从前面的讨论中知道,无论解释变量取怎样的值,对应残差的方差都应相等,它不随解释变量或被解释变量预测值的变化而变化,否则认为出现了异方差现象。当存在异方差时,专微的最小乘估计不再是最小方垫无临计,异方差分号可以通过以下两种方式实现:
第一,绘制残差图。
可以通过绘制残差图分析是否存在异方差,在下图所示的残差图中,残差的方差随着解释变量值的增加呈增加(或减少)的趋势,出现了异方差现象。

第二,等级相关分析
帮到残差序列后首先对其取绝对值,然后分别计算出孩差和解释变量的秩,景山件斯皮尔等级相关系数,进行等相关分析。如果物笑分精园请统计的概率值小于给定的是著水平a,则应拒绝相关分析的原假设,认为解释变量与残差间存在显著的相关关系,出现了异方差现象。
如果存在异方差现象,可先对被解释变实施方差稳定变换后再进行回归方程参数使估计,另外,还可以利用加权最小二乘估计法实施回归方程的参数估计。
加权最小二乘法中权重的确定是非常重要的。