欢迎光临散文网 会员登陆 & 注册

统计咨询:为什么我不建议随便用逐步回归法构建回归模型?

2023-03-27 15:43 作者:郑老师妙趣横生统计学  | 我要投稿

2023年以来浙中医大学郑老师开设了一系列医学科研统计课程,零基础入门医学统计包括R语言、meta分析、临床预测模型、真实世界临床研究、问卷与量表分析、医学统计与SPSS、临床试验数据分析、重复测量资料分析、结构方程模型、孟德尔随机化等10门课,如果您有需求,不妨点击下方跳转查看: 

2023年郑老师多门科研统计课程:多次直播,含孟德尔随机化方法

先说我的建议

(1)如果你构建预测模型,逐步回归法可以用。

(2)如果你只是是探讨影响因素,尽量不要用逐步回归法。你觉得自变量太多,那么在单因素分析时候就限制(P值较小者纳入多因素回归),而不是逐步回归法控制。

下文说理由:
现在很多人知道,回归分析要么用来探讨影响因素,要么可以用来构建预测模型。但是构建预测模型的文章毕竟少数,绝大多数只是为了探讨影响因素。

目前无论是哪个目的,国内很多人开展统计分析,构建回归模型筛选自变量,都喜欢用逐步回归法(向前、向后、双向)。我不知道是哪里的统计学教育出问题了,还是就是因为统计学老师自己都没有搞清楚?

事实上,逐步回归法是是给构建预测模型用的,不是探讨影响因素用的。它的目的是用最少的因子,成功构建出不差于全变量模型(通过用R^2、-2倍对数似然值或者AIC等指标评价拟合效果),也就是通过软件的方法,筛选出有用的自变量,其拟合效果不差于全部自变量放入模型,而且较少的自变量个数有利于模型的构建(回归模型样本量对自变量个数有限制)。
但只是探讨探讨影响因素而非构建预测模型时,逐步回归法有什么优势?


(1)有人说,逐步回归法可以减少冗余的自变量

其实,这不是好的解决办法。冗余的自变量有两套解决方案。

第一,我们构建回归时候,在考虑哪些可能的影响因素时,就应该慎重考虑,不是所有阿狗阿猫都作为候选自变量开展回归分析,与结局变量“拉郎配”。
只有与结局变量可能存在着因果关系的变量,才推荐开展回归分析。这一点,是需要从专业上去考虑的。
第二,在统计分析的时候,若自变量个数很多,在单因素分析时就卡关,不随便纳入自变量进入最终的多因素回归模型。一般单因素分析P值较小者纳入回归模型。

(2)逐步回归法可以把没有统计学意义的自变量淘汰出去,它们不应该留在模型中
这种理解是不对的!多因素回归可以允许P值大于0.05的自变量留在模型并报告出来吗?当然可以。而且也推荐呈现在最后报告中,以展现哪些有统计学意义,哪些没有统计学意义。

(3)逐步回归法效果更好

不见得。逐步回归法优点在于把对因变量影响较小的都淘汰掉,自变量个数减少了,所以留在模型的自变量效应会增强!看起来变美好了。

这个前提是你自变量实在太多了。但是,这种情况是不多见的。如果回归分析放入太多的自变量,那么逐步回归法也挽救不了你。

(4)有人说,逐步回归法可以处理多重共线性
很多时候,由于自变量存在着高度相关。这个时候,连教科书都推荐试试逐步回归法呀!

这种做法其实很要命!这是一种完全无视数据特点,强行胡乱进行自变量筛选的一种方法。

为什么有多重共线性?多重共线性往往由于变量之间存在着关联性,这种关联性有几种情况:
第一,这个变量是混杂变量,由于混杂变量与自变量相关,所以造成部分共线性
第二,这个变量是中介变量,中介变量也会造成自变量相关第三,变量是同个东西。比如年龄这一定量变量和根据年龄进行分组产生年龄的等级变量,那么原先的年龄定量数据和等级变量的年龄就是高度相关,如果它们一同纳入模型,就会造成共线性第四,一个事物的两个属性,比如身高与坐高,相关高度相关,如果,如果他们一同纳入模型,就会造成共线性

实际上,除了第一点之外,我们在处理多重共线性时,典型的方法是排除造成多重共线性的变量。比如身高坐高在回归分析应该2选1,定量年龄和分类年龄应该2选1,中介变量不能纳入模型。


详情请点击下方:

https://mp.weixin.qq.com/s?__biz=MzAwOTYyMDY3OQ==&mid=2650404618&idx=4&sn=56c3315b1ca3a60c9ee56afae1f92103&chksm=83518aa2b42603b4642e9600e1daaf151e7cbdc866e4c683eeebd45a4c03ff61dfff2bb90203&token=1579182731&lang=zh_CN#rd

vx关注“医学论文与统计分析”,获取更多精彩内容!   

2023年统计服务 

2023年,我们将开展从科研设计、数据分析、统计学报告等医学科研研究方法咨询与服务多项服务,若您有课题经费可以支持,欢迎您提前和我们联系,2022底前采用预付方式与我们开展合作。 

2023年统计服务开启!欢迎提前洽谈数据分析、科研合作服务

统计咨询:为什么我不建议随便用逐步回归法构建回归模型?的评论 (共 条)

分享到微博请遵守国家法律