SPSS的Logistic回归分析
一、 实验目的
掌握二元Logistic回归分析的基本思想和具体操作,能读懂分析结果,并写出回归方程,对回归方程进行各种统计检验。
二、 实验题目
某研究人员在探讨肾细胞癌转移的有关临床病理因素研究中,收集了一批行根治性肾切除术患者的肾癌标本资料,现从中抽取26例资料作为示例进行logistic回归分析。
数据和变量说明如下:
·x1:确诊时患者的年龄(岁)
·x2:肾细胞癌血管内皮生长因子(VEGF),其阳性表述由低到高共3个等级
·x3:肾细胞癌组织内微血管数(MVC)
·x4:肾癌细胞核组织学分级,由低到高共4级
·x5:肾细胞癌分期,由低到高共4期
y: 肾细胞癌转移情况(有转移y=1; 无转移y=0)


三、实验步骤和结果分析
所谓Logistic模型,或者说Logistic回归模型,就是人们想为两分类的应变量作一个回归方程出来,可概率的取值在0~1之间,回归方程的应变量取值可是在实数集中,直接做会出现0~1范围之外的不可能结果,因此就有人耍小聪明,将率做了一个Logit变换,这样取值区间就变成了整个实数集,作出来的结果就不会有问题了,从而该方法就被叫做了Logistic回归。
随着模型的发展,Logistic家族也变得人丁兴旺起来,除了最早的两分类Logistic外,还有配对Logistic模型,多分类Logistic模型、随机效应的Logistic模型等。由于SPSS的能力所限,对话框只能完成其中的两分类和多分类模型
运行软件,输入数据
选择菜单分析>回归>二元logistic,弹出线性回归参数设置窗口
因变量:肾细胞癌转移情况
协变量:x1,x2,x3,x4,x5
方法:向前:条件
(在指向协变量的箭头下面,有个小按钮a*b,其作用是用来选择交互项)

勾选概率,组成员,标准化,杠杆值,包含协方差矩阵

点击继续,打开选项对话框
勾选分类图Hosmer-Lemeshow拟合度(H)(协变量有连续型的,或者小样本)
输出——在每一个步骤中

下图第一个表记录处理情况汇总,即有多少例记录被纳入分析
此处不存在缺失值,共26条记录
第二个表为应变量分类情况表
第三个表已经开始拟合,block 0拟合的是只有常数的无效模型,为分类预测表,可见在17例观察值为0的记录中,共有17例被预测为0,9例1也被预测为0,总预测准确率为65.4%,这是不纳入任何解释变量时的预测准确率

下图第一个表为block 0时的变量系数,可见常数的系数值为-0.636
第二个表为在block 0处尚未纳入分析方程的候选变量,所做的检验表示如果分别将他们纳入方程,则方程的改变是否会有显著意义,由此可见,x2的哑变量纳入方程的改变是有显著意义的,x4,x5也一样
第三个表开始block 1的拟合,根据设定,采用的方法为向前进步,3表为全局检验,这6个检验都是有意义的
第四个表为模型概况汇总,从步骤一到二,18降到11,两种决定系数也都有上升


下图第一个表为方程中的变量检验情况列表,分别给出步骤一、二的拟合情况,x4的P值略大于0.05,但任然是可以接受的,因为这里用到的是排除标准(默认为0.1),该变量可以留在方程中。以步骤二的x2为例,其系数为2.413,OR值为11

只引入x2时的预测图,0和1代表实际取值,当预测的概率值大于0.5时,则预测结果为1,反之为0。由下图可见,该模型对0的预测较好,多数概率都在0附近,但对1的不好,即使是正确的,计算出的概率也在0.8左右,并且出错较多

这个预测结果有了较大的改善,概率精度提高了很多,出错率较低,从分布上看,一例可能是极端情况,在引入其他变量也不见得能将预测效果改变什么

(截图带有个人信息的命名地方截掉了要么马赛克请见谅)
实验报告,参考颇多,如有失误,欢迎指出