如何开展logistic逐步回归法?
Logistic回归在医学科研、特别是观察性研究领域,无论是现况调查、病例对照研究、还是队列研究中都是大家经常用到的统计方法,而在影响因素研究筛选自变量时,大家习惯性用的比较多的还是先单后多,P<0.05纳入多因素研究,很少用逐步回归法,有些同学可能听过但是了解也不多,这里先简单介绍一下。

那么什么时候推荐用逐步回归呢?有以下2种情况,可以考虑使用:
①探索性研究、探讨多个影响因素时,候选的影响因素实在太多(单因素分析后P值<0.05者,仍然超过10个),或者样本量不大。
②构建预测模型时候,就放心大胆的用。其他场景,一般不建议用逐步回归法。
逐步回归法的原理听上去很复杂,但是用R语言几行代码也可以搞定,只是R语言需要一定的代码基础,一时半会儿也无法学会,因此,这里结合实操案例为大家介绍一个智能在线免费统计分析平台——风暴统计。

一、实操数据介绍
这里我们使用的是R语言自带数据集MASS中的birthwt,birthwt是一份与婴儿出生体重低相关的危险因素数据,其中包含的变量见下表,根据研究设计,以“low”作为结局变量。

二、风暴统计智能在线免费平台复现
(1)进入风暴统计网站的“风暴智能统计”模块,点击“logistic回归分析”

(2)导入数据,目前支持10M以内的csv格式。数据导入前如需进行预处理的(如:定量数据转分类数据、多分类转二分类、打标签等),推荐用SPSS进行操作,具体详见下方文章:

(4)指定因变量与自变量的变量类型

(5)指定logistic回归方式
这里我们以P值0.05为界,选用双向逐步回归法,右侧直接得出三线表结果!

(6)导出word版三线表结果

三、R语言软件复现
这里采用autoReg包,autoReg包是一款功能十分强大的R包,不仅可以快捷完成基线表的制作,还可以直接一行代码输出回归分析(支持线性模型、广义线性模型和比例风险模型)的表格。
(1)logistic回归模型构建
使用glm() 函数构建回归模型,glm(y~x1+x2+x3+x4+x......,data=数据集名,family="binomial"),指定因变量与自变量,设置数据集名。
logfit<-glm(low ~ age + lwt + race + smoke + ptd + ht + ui + ftv,data=bwt,family = "binomial")
summary(logfit)
此处参数family规定了回归模型的类型:family="binomial"指适用于二元离散因变量(binary)。
(2)逐步回归法
logreg4<-autoReg(logfit,uni=TRUE,threshold=0.05, final=T) #final=T逐步回归
logreg4
logtable4<-myft(logreg4)

四、总结
通过对比,风暴统计与R语言先单后多的分析结果完全一致,风暴统计对于P值还有单独成列,结果更加清晰直观!这也是由于平台的构建依托于R代码进行分析。同时结果输出更加快捷,迅速,大家进行统计分析时不妨试一试!

