医学案例 | 二元logit回归分析
一、案例介绍
为探讨糖尿病与血压、血脂等因素的关系,某研究者对56例糖尿病患者和65例对照者进行病例-对照研究,收集了性别、家族史、吸烟、血压、总胆固醇、甘油三酯、高密度脂蛋白7个因素的资料,试着分析这些因素对糖尿病是否有影响。
二、问题分析
由于想要进行分析性别、家族史、吸烟、血压、总胆固醇、甘油三酯、高密度脂蛋白对糖尿病的影响,可以考虑使用回归分析,由于糖尿病是类别变量,并且是二分类变量,所以考虑使用二元logit回归分析。
三、软件操作及结果解读
(一) 数据导入
1.数据格式
首先将数据整理成正确的格式,一般一个X为一列,Y为一例,并且分析的数据带有数据标签的,需要另添加一个表格进行说明,数据格式如下:
2.导入数据
将整理好的数据上传至SPSSAU系统内,如下:
(二) 适用条件判断
1.单因素筛选
为了拟合的模型更好,可以先就单个因素的预测作用进行分析。根据因变量、自变量的数据类型不同,一般进行卡方检验,t检验等。其中卡方检验需要数据均为定类变量,t检验需要变量为定量变量和定类变量。根据数据的类型进行如下检验:
卡方检验:
(1)“糖尿病”ד性别”
从上表可知,卡方值为0.202,p值为0.653,说明不同糖尿病对于性别不会表现出显著性差异。
(2)“糖尿病”ד家族史”
从上表可知,卡方值为7.633,p值小于0.05,说明不同糖尿病对于家族史有显著性差异。然后以同样的方法发现糖尿病对于是否吸烟、血压均有显著性差异。
T检验:
(1)“糖尿病”ד总胆固醇”
从上表可知,t值为-2.147,p值小于0.05,说明不同糖尿病对于总胆固醇有显著性差异。然后以同样的方法发现糖尿病对于甘油三酯、高密度脂蛋白均有呈现0.1水平上显著性差异。然后将家族史、吸烟、血压、总胆固醇、甘油三酯、高密度脂蛋白6个因素作为自变量进行二元logit回归。
2. 变量处理
因变量
二元logit回归需要因变量为二分类变量且只能为0和1,如果不是可以利用SPSSAU进行数据编码。
自变量
二元logit回归对于自变量的数据类型没有要求,可以为定类变量也可以为定量变量,所以对于定类变量,可以考虑进行哑变量处理后在分析,操作如下:
(三)二元logit分析
1. 软件操作
二元logit分析路径为点击【进阶方法】→【二元logit】然后进行分析:
2. 结果解读
通过单因素分析最后以家族史、吸烟、血压、总胆固醇、甘油三酯、高密度脂蛋白6个因素作为自变量,糖尿病作为因变量进行二元logit回归。结果如下。
模型有效性查看
首先查看模型的似然比检验结果,发现p值小于0.05,说明模型总体上有统计学意义,即至少有一个自变量是有预测作用的。以及通过回归分析结果可以看到
回归分析结果
从上表可知,分析项吸烟、血压、甘油三酯、高密度脂蛋白、有家族史的p值均小于0.05,意味着均对因变量“是否有糖尿病”均有影响并且血压、甘油三酯、吸烟和有家族史回归系数均大于0,均为正向影响其余为负影响。其中“吸烟”OR值为13.232意味着吸烟患有糖尿病为不吸烟的13.232倍。有家族史OR值为3.242意味着有家族史患有糖尿病为没有家族史的3.242倍。除此之外SPSSAU还提供了模型公式和模型预测、Hosmer-Lemeshow拟合度检验等,因为例子主要研究是否有影响,所以这里不在赘述。
四、结论
通过二元logit回归分析分析性别、家族史、吸烟、血压、总胆固醇、甘油三酯、高密度脂蛋白对糖尿病的影响,正式分析前对数据进行单因素分析,目的是初探自变量与因变量之间的关系,发现大部分有显著性,由于自变量中有定类变量所以需要进行哑变量处理。接着进行二元logit回归分析发现模型构建有效,血压、甘油三酯、吸烟和有家族史回归系数均大于0,均为正向影响其余为负影响。以及吸烟”OR值为13.232意味着吸烟患有糖尿病为不吸烟的13.232倍。有家族史OR值为3.242意味着有家族史患有糖尿病为没有家族史的3.242倍。
五、知识小贴士
1、Hosmer和Lemeshow检验(HL检验)过程表格解读?
SPSSAU默认输出HL检验结果及其中间过程表格,其检验原理上为将预测概率值按10分位数分为10个组别,然后计算每个组别的观测值和预测值,进而得到检验结果。HL检验过程表格可用于直观查看二元logit模型的拟合一致性(校准度)情况。除使用表格直观查看一致性情况,也可将‘HL检验结果表格’结果进一步用于绘制比如散点图或柱形图或折线图等,图示化展示模型的预测一致性情况。
2、SPSSAU进行二元Logit回归时多少样本量适合?
在进行二元logistic回归时,样本量规则建议如下:因变量Y即01变量时,类别较少那项,比如1出现70,0出现30,以30为准,30/10=3(即类别频数较少项的频数除以10),则最多3个自变量X。
如果X的个数为10个,那么10*10=100,那Y的两个类别的较小频数最少为100。
3、‘Hosmer-Lemeshow拟合度检验’问题
Hosmer-Lemeshow检验(HL检验)为模型拟合指标,其原理在于判断预测值与真实值之间的gap情况,如果p值大于0.05,则说明通过HL检验,即说明预测值与真实值之间并无非常明显的差异。反之如果p值小于0.05,则说明没有通过HL检验,预测值与真实值之间有着明显的差异,即说明模型拟合度较差。
SPSSAU计算的HL检验与R软件、Stata软件等保持一致,但与IBM SPSS软件的结果有一定出入,这是由于边界问题的处理方式不一致。
参考文献:
[1]孙振球.医学统计学.第3版[M].人民卫生出版社,2010.