欢迎光临散文网 会员登陆 & 注册

漂亮!大咖杰作!中国学者Lancet文章展示如何利用回归方法巧妙探讨影响因素

2023-08-29 14:40 作者:郑老师妙趣横生统计学  | 我要投稿

2021年8月27日,中国中日友好医院国家呼吸内科中心曹彬教授联合首都医科大学等研究人员在国际顶级期刊《柳叶刀》上在线发表了题为" 1-year outcomes in hospital survivors with COVID-19:a longitudinal cohort study "的研究论文。

曹彬教授,是2021年的中国工程院院士候选人(第一轮)。这两年以来,围绕着新冠肺炎防治方面开展了一系列卓有成效的工作。
这篇《柳叶刀》正刊发表了一项我国学者进行的最大规模新冠后遗症研究。该研究追踪了1276名从武汉金银潭医院出院的新冠患者康复情况。结果显示,新冠出院患者1年后健康状况相比出院6个月时有明显改善,但仍未恢复至基线健康水平。
该研究对2020 年 1 月 7 日至 5 月 29 日期间从金银潭医院出院的 COVID-19 幸存者进行了一项双向队列研究。在 6 个月和 12 个月的随访中,幸存者接受了有关症状和健康相关生活质量 (HRQoL) 的问卷调查,并接受了体检、6 分钟步行测试和实验室测试。他们被要求在出院后报告他们的医疗保健使用情况,并在 12 个月的访问中报告他们的工作状态。主要结果是症状、改良的英国医学研究委员会 (mMRC) 评分、HRQoL 和 6 分钟步行距离 (6MWD)。多变量调整logistic回归模型用于评估 12 个月结果的危险因素

研究结果显示,至少还有一种后遗症症状的人群比例从6个月时的68%,下降到12个月时的49%;疲劳或肌肉无力是最常见报告的症状,从 6个月时的52%下降到 12 个月时的20%。不过,疲劳或肌肉无力、睡眠困难、脱发、嗅觉障碍和味觉障碍等症状均随着时间推移显著消退。

1、疲劳或肌肉无力:6个月时52%→12个月时20%。
2、睡眠障碍:6个月时27%→12个月时17%;
3、脱发:6个月时22%→12个月时11%;
4、嗅觉失灵:6个月时11%→12个月时4%
5、心悸、关节疼痛的比例则没有明显变化。

因此,大多数 COVID-19 幸存者在 1 年的随访期间身体和功能恢复良好,并恢复了原来的工作和生活。但总体上该研究的 COVID-19 幸存者队列在 12 个月时的健康状况仍低于对照组。
划重点:如何利用回归开展新冠患者预后的影响因素?

针对疲劳或肌肉无力、焦虑或抑郁、弥散功能障碍三个结局指标,作者开展了影响因素研究。本文重点就是学习这篇文章如何开展影响因素分析。我发现这篇文章的影响研究非常非常值得我们来借鉴!

为了学习这个文章的思路,首先要明确它的结局和暴露因素。

Outcome:它的结局是疲劳或肌肉无力、焦虑或抑郁、弥散功能障碍三个,是分类变量的结局:疲劳或肌肉无力(是/否)、焦虑或抑郁(是/否)、弥散功能障碍(是/否)
Expoure暴露因素:这是个队列研究,但它同时聚焦了多个影响因素。这些影响包括age, sex, cigarette smoking, education, comorbidity, corticosteroids, antivirals, and intravenous immunoglobulin、disease severity 。数量也不多。

问题1:结局是二分类的变量,用什么回归?

答:logistic回归

问题2:开展影响因素是否需要“先单后多”

这是非常值得聊一聊的话题,现在很多人在开展影响因素的时候,采取的策略是先单因素分析,再将单因素分析P值较小者纳入到多因素回归模型。其实我是不推荐的,我在之前的文章已经写过:

回归分析时,一定要单因素回归P<0.05的自变量纳入多因素回归吗?

答案:不一定,在自变量个数较少的时候,可以全部自变量纳入多因素回归模型

问题3:这篇文章是全部自变量纳入多因素回归分析吗?

答案:嘿嘿,又不是的!

啥?你郑老师是耍我么?怎么又不是所有变量纳入分析了?

我在之前文中说过,构建回归模型要“严进严纳”:严进严纳的方法基本理念是,即在纳入自变量的时候需要严格纳入,在排除自变量的时候,没有多大意义的别放在最终模型中来。

严进:合理的挑选自变量纳入多因素回归模型

严纳:少留变量在最终模型,多淘汰一些变量出

开展回归,(1)要考虑那些理论上具有因果关系的变量和潜在混杂变量纳入到回归模型中,严格限制无关变量、中介变量进入统计模型。(2)在上述限制条件下,当样本量足够大,自变量不多时候,可以不必按照“先单后多”原则,可一次性纳入所有符合上述条件的变量进入。

所以刚才讲的所有变量纳入模型,是第(2)步,但第(1)步要选筛选变量,特别是要区分哪些是目标暴露因素,哪些是混杂因素,哪些是中介变量。

有句话在回归分析一般要记住:混杂因素一定要纳入,中介变量一般不纳入。这篇文章就是这么干的。

(1)首先讨论的暴露因素是疾病严重程度(disease severity对于这个变量而言,年龄、性别、吸烟状态、教育程度、并发症、皮质类固醇、抗病毒治疗、静脉注射免疫球蛋白是潜在混杂变量,所以回归分析的时候都一同纳入。

(2)如果要分析教育和吸烟程度与结局的关系,那么并发症、疾病严重程度不能放了,因为它们可能是中介变量。 
When exploring the associations of education and smoking with outcome, the aforementioned variables except for comorbidity, and both comorbidity and disease severity (due to the potential mediation) were included, respectively 

(3)如果要分析年龄和结局的关系,那么只有性别、吸烟状态、教育程度能放了,因为其它变量可能是中介变量。 

(4)如果要分析并发症和结局的关系那么疾病严重程度不能放了,因为它们可能是中介变量。 

所以,开展回归分析,在考虑是否先单后多的策略前,要考虑哪些是目标暴露因素,哪些是混杂因素(包括潜在),那么些中介变量。特别注意,中介变量不好纳入。

我强烈建议,开展回归分析之前,好好考虑变量之间的关系网络,推荐绘制有向无环图(DAG)来描述因果关系。

详情请点击下方:
https://mp.weixin.qq.com/s?__biz=MzAwOTYyMDY3OQ==&mid=2650389085&idx=1&sn=6a0012c2f51649f912dd05ebbcc3cda9&chksm=8351c7f5b4264ee365bd1ba52f6fd33e57aa820bec71dd5aa54aaac95f137c76bf2866b3a356&scene=21#wechat_redirect


漂亮!大咖杰作!中国学者Lancet文章展示如何利用回归方法巧妙探讨影响因素的评论 (共 条)

分享到微博请遵守国家法律