医学案例 | 多分类logit回归分析
一、案例介绍
某研究人员想要理解不同社区和性别之间成年居民获取健康知识的途径是否不同,对2个社区共314名成人进行调查,得到数据后想要拟合社区和性别对居民获取健康知识途径的回归模型。
二、问题分析
将得到的数据进行拟合社区和性别对居民获取健康知识途径的回归模型。由于居民获取健康知识途径为无序分类变量,所以考虑使用多分类logit回归分析,其中以居民获取健康知识途径为因变量,社区和性别为自变量建立多分类logit回归分析。
三、软件操作及结果解读
(一) 数据导入
1.数据格式
首先将数据整理成正确的格式,一般一个X为一列,Y为一例,并且分析的数据带有数据标签的,其中性别中1代表男、2代表女,社区1代表社区1,2代表社区2,居民获取健康知识途径中1代表传统大众媒介,2代表网络,2代表社区宣传。需要另添加一个表格进行说明,数据格式如下:
2.导入数据
将整理好的数据上传至SPSSAU系统内,如下:
上传的数据如下:
(二) 适用条件判断
多分类logit回归需要满足因变量是多分类变量,并且观测值相对独立,以及自变量之间无多重共线性。该案例中因变量为有序多分类变量和观测值相对独立,所以接下来进行查看模型是否有多重共线性。
1.软件操作
想要检验是否具有多重共线性,查看vif值即可,路径为点击【通用方法】→【线性回归】然后进行分析:
2. 结果解读
如果VIF≥10,则表明自变量之间存在多重共线性,VIF值计算如下:
从分析结果中可以看到VIF值均小于10说明不存在多重共线性的问题。
(三)多分类logit分析
1. 软件操作
路径为点击【进阶方法】→【多分类logit】然后进行分析:
2. 结果解读
案例满足分析的前提条件,接下来进行查看模型构建的有效性以及影响关系,首先对于模型构建的有效性进行查看:
此处模型检验的原定假设为:是否放入自变量针对模型质量均一样;这里p值小于0.05,因而说明拒绝原定假设,即说明本次构建模型时,放入的自变量具有有效性,本次模型构建有意义。接下来对影响关系进行查看:
从表格中可以看出,网络相对于传统大众媒体来说只有社区具有显著性(p值小于0.05),社区宣传对于传统大众媒介来说自变量女性和社区均具有显著性影响(p值小于0.05),针对网络相对于传统大众媒介来讲,社区1的回归系数为1.374,回归系数大于0说明社区1更加偏好在网络上获取健康知识途径,社区宣传对于传统大众媒体来讲,女性更喜欢社区宣传获取健康知识途径,社区1对于社区宣传和传统大众媒介相比更喜欢从社区宣传获得传统大众媒介知识。
四、结论
多分类logit回归分析研究社区和性别对居民获取健康知识途径的回归模型,进行查看模型是否有多重共线性,经过vif值查看发现没有多重共线性,然后进行多分类logit回归分析,首先进行模型有效性查看,发现模型构建有效。对于影响关系的查看,社区宣传对于传统大众媒介来说自变量女性和社区均具有显著性影响(p值小于0.05),针对网络相对于传统大众媒介来讲,社区1的回归系数为1.374,回归系数大于0说明社区1更加偏好在网络上获取健康知识途径,社区宣传对于传统大众媒体来讲,女性更喜欢社区宣传获取健康知识途径,社区1对于社区宣传和传统大众媒介相比更喜欢从社区宣传获得传统大众媒介知识。
五、知识小贴士
1、多分类logit回归,出现一堆null值,通常是由于‘因变量的类别分布有问题,比如某个类别的样本量小于10无代表性,也或者有共线性问题需要查看’,此时建议对因变量的各选项进行合并组别(或者先筛选下),然后再次进行分析。当然也有可能是由于共线性问题导致无法拟合出结果,此时可先进行相关分析,将相关系数值过大的项移出模型中再次进行分析即可。
2、针对多分类logit回归,SPSSAU默认是以第一项作为参照项,而SPSS默认是最后一项作为参考项,研究中以第一项还是最后一项作为参考项并没有固定的标准,更常用是使用第一项作为参考项。
有序logit回归或者多分类logit回归时,spssau默认会设置第一项作为参照项,因此输出结果时会少一项。