如何构建临床预测模型?这篇文章列出了七大关键步骤

2023年郑老师多门科研统计课程:多次直播,含孟德尔随机化方法

风险预测模型是根据个体的一系列特征来估计个体发生某种疾病或出现某种结局概率的统计模型,常用于临床中对疾病严重程度进行分层,并揭示疾病或疾病预后的风险特征。
随着科技的进步,临床和生物学数据不断增加,预测模型在肾脏疾病领域得到了越来越广泛的应用。
本文将通过以下步骤指导读者创建一个预测模型,步骤包括:
确定临床问题和预测模型类型;
数据收集和数据处理;
模型构建和变量筛选;
模型性能;
模型验证;
模型展示和报告;
影响评估。
最后,以建立终末期肾病(ESKD)患者ICU入院后90天死亡率的预测模型为例,说明预测模型的推导过程。

目 录
1. 介绍
2. 构建预测模型的例子
3. 建立预测模型的步骤
4. 确定临床问题和预测模型类型
4.1 预测模型的类型
4.2 预测模型与流行病学模型的区别
4.3 预测模型类型的选择
5. 数据收集与数据处理
5.1 数据的收集
5.2 数据的处理
6. 模型构建与变量筛选
6.1 基于临床知识和既往研究
6.2 逐步回归法
6.3 信息准则
6.4 其他筛选方法
6.5 统计假设
7. 模型性能
7.1 区分度
7.2 校准度
7.3 模型的比较
8. 模型验证
8.1 交叉验证法
8.2 bootstrapping法
8.3 外部验证
9. 模型的展示与报告
10. 影响评估
10.1 影响评估的研究设计
10.2 评估预测模型的证据强度
11. 结论
1. 介绍
风险预测模型可以根据模型中预测变量的值来评估预测个体出现某一疾病或结局的概率。在诊断、治疗、辅助预测和疾病严重程度分层方面,这些模型可以用来指导临床医生做出决策。
随着新技术的进步,大型医疗数据库的建立为预测模型的构建和验证提供了机会。在肾脏疾病领域,已经开发了很多预测模型用于临床实践,如预测ESKD风险的模型和国际IgA肾病预测模型。
本文阐述了构建风险预测模型所涉及的步骤,其中重点是模型的开发和验证,并举例进行说明。
2. 构建预测模型的例子
临床背景:1名55岁的男性ESKD患者,接受维持性血液透析治疗,在出现严重肺炎后被送入ICU。
临床问题:ESKD患者进入ICU后死亡风险是多少?
本研究使用这个例子来说明预测模型的开发,构建的模型可以预测ESKD伴透析患者在ICU入院后90天的死亡风险。
数据来自MIMIC-III数据集,该数据集来源于美国一家大型三级医院的综合ICU数据库,包含患者特征、临床观察、实验室结果、药物、液体平衡、诊断代码和生存数据。可以从http://mimic.physionet.org
网站获取该数据集信息。
本文所建立的模型仅作演示之用,不应用于临床实践。有关模型构建步骤的更多详细信息,请参见补充附录,以及R脚本的副本。
3. 建立预测模型的步骤
预测模型的建立可分为7个步骤:
确定临床问题和预测模型类型;
数据收集和数据处理;
模型构建和变量筛选;
模型性能;
模型验证;
模型展示和报告;
影响评估。
4. 确定临床问题和预测模型类型
4.1 预测模型的类型
临床预测模型的类型主要有两种:诊断模型和预后模型。
诊断模型用来估计患者发生某一疾病的风险,可以识别高风险患者,及早预防和治疗。
预后模型用来估计患者未来某一时间段发生某一结局的风险,对出院前的患者进行评估,识别出高风险患者,通过对高风险患者加强随访,可以改善患者预后。
4.2 预测模型与流行病学模型的区别
区分预测模型与流行病学模型是很重要的。预测模型追求对结局的最精确的预测,而不考虑其各个组成部分与结局之间的关联。
尽管预测模型和流行病学模型使用相同的统计工具,但它们的构建方式不同,在预测模型中,我们不应该得出因果性的结论,也不应该将预测模型的组成部分解释为结局的风险因素。
下表总结了预测模型和流行病学模型之间的差异。
特征预测模型流行病学模型模型目的为了准确的预测结局,如预测特定患者群体发生疾病或结局的风险评估变量与结局之间的流行病学或因果关系,如吸烟与肺癌之间的关系变量为预测模型提供信息来做出更准确预测的影响因素根据模型结构,变量可以认为是结局的风险因素,或是变量和结局之间关系的混杂因素变量筛选基于改善预测模型性能的能力来筛选变量,这些变量不一定与结局存在生物学或流行病学关系,如婚姻状况和ICU死亡率基于现有知识和变量与结局之间因果关系的假设来筛选变量,如年龄和性别可能是吸烟对CKD风险影响的混杂因素,因此包含在调整模型中
4.3 预测模型类型的选择
预测模型的类型取决于感兴趣的结局。
传统上logistic回归模型用于二分类结局,如有无疾病(如是否发生急性肾损伤),或确定时间段的结局事件(如30天死亡)。
Cox比例风险模型用于包含时间的数据(如进展到ESKD的时间)。
新的机器学习方法,如随机森林、k近邻、支持向量机和人工神经网络等,也越来越多地用于预测模型的开发。本系列的另一篇文章将介绍机器学习方法用于预测建模的更多细节。
在本文的例子中,因为感兴趣结局是二分类结局(ICU入院后90天是否死亡),所以我们可以使用logistic回归模型来构建预测模型。
5. 数据收集与数据处理
5.1 数据的收集
建立预测模型的数据可以重新收集,也可以来自现有的试验、队列研究、登记注册或管理的数据集。数据集应包括与预测模型的感兴趣人群相同的患者群体。数据集中样本量越大、患者信息越多,构建的预测模型就越准确。
在本研究中,MIMIC-III数据集包含了患者的基本特征(如年龄和性别),以及每个患者ICU入院期间生命体征和实验室结果的数据。我们使用患者的基本特征、首次获得的生命体征数据和在ICU入院48h内获得的基本实验室结果数据作为潜在的预测变量来开发预测模型。
5.2 数据的处理
在开始构建模型之前,要检查每个变量是否有缺失值、离群值或异常值,还应评估每个变量的分布。
根据缺失值的类型以及处理缺失值的方式,缺失值处理常可能导致统计分析出现偏倚。可以采取几种方法来处理缺失值,如删除缺失值后的完整病例分析或使用插补法。本系列的另一篇文章将详细介绍缺失值的处理。
除了缺失值外,协变量的编码和类型也是需要考虑的。协变量可以是分类变量,如男性/女性;也可以是连续变量,如年龄和血清钠水平;还可以是计数的离散型变量,如既往住院次数或合并症数量。
分类变量的每一个水平都应该有足够的观测对象。如果某一水平观测对象较少,可以合并观测对象较少的类别水平。一般来说,只有当变量的潜在价值很小时,连续变量和离散变量才应该转换成分类变量,其他情况下不建议这样做,因为这样做会减少变量的预测信息,并可能降低模型的预测能力。
在本研究中,使用ICD-9诊断代码来识别伴透析的ESKD患者,并使用相关变量的项目代码从数据集中提取协变量的信息。
其他的数据处理步骤包括:将所有温度值转换为相同单位(摄氏度),将入院类型、种族和婚姻状况变量进行重新分类。数据集中只存在少量的缺失值(每个变量<4%),因此可以进行完整病例分析。
6. 模型构建与变量筛选
在确定好临床问题和预测模型类型,并进行数据收集和处理后,预测模型开发的下一步是选择要纳入预测模型的变量。
变量筛选的目的是选择重要的协变量,这些协变量可以创建一个最准确地预测感兴趣结局的模型。
有几种方法可用于筛选预测变量。
6.1 基于临床知识和既往研究
第一步,可以根据临床知识和既往研究来选择具有预测性或与感兴趣结局有关的变量。然而,由于预测模型的目的是准确的预测感兴趣结局的发生风险,因此,只要这些变量提高了模型的预测精度,预测模型中包含的变量可以不一定是影响结局的生物学危险因素。
在本研究示例中,如婚姻状况等变量可能对ICU入院后的死亡率没有直接的生物学影响,但如果纳入这些变量能够更准确地预测结局,在创建预测模型时仍然可以考虑这些变量。
统计学方法也可以用来识别对感兴趣结局有重要意义的变量,如逐步回归法和正则化法。这些方法各有优缺点。
6.2 逐步回归法
传统的变量筛选方法是使用逐步回归来筛选变量,包括在每个步骤中逐步从模型中添加协变量(前进法)或从模型中移除潜在协变量(后退法),直至选择出最佳模型为止。
在后退法中,所有潜在的协变量都纳入到初始多变量模型中,基于P值将与感兴趣结局关联性最小的协变量从模型中逐一删除,直至模型中所有剩余的协变量达到了设定的统计显著性水平,通常P值<0.05。
在前进法筛选变量时,基于P值将与感兴趣结局关联性最显著的协变量添加到模型中,根据统计显著性水平逐一添加到多变量模型中。
如果在构建模型前测量了许多潜在的协变量,则可能无法拟合包含所有潜在协变量的初始多变量回归模型。潜在协变量的初始筛选可以根据单因素分析,比如说仅纳入单因素分析中p值<0.25的协变量进入初始多变量模型。然后使用前进法或者后退法来完善多变量模型。
作为多变量logistic回归或Cox比例风险模型的一般指南,模型中的观察病例数与协变量的比值应大于10:1。
6.3 信息准则
基于P值筛选变量的另一种方法是使用信息准则,如Akaike信息准则和贝叶斯信息准则。可以基于较低(即模型更好)的Akaike或贝叶斯信息准则的数值来选择包含不同协变量的模型。
6.4 其他筛选方法
还有一些其他变量筛选方法,如具有LASSO惩罚的正则回归法。正则化法同时将模型拟合和变量筛选结合在一起,在考虑大量潜在协变量(相对于样本量)的情况下可能特别有用。因此,对于正则化方法而言,不需要上面提到的有关变量初始筛选的步骤。
6.5 统计假设
作为构建模型的一部分,检查模型的统计假设是否得到满足也很重要,如连续变量的线性或函数形式。如在线性回归模型中,假设连续变量和结局有线性关系。类似的,在逻辑回归模型中(如二分类结局),假设连续变量与结局的对数存在线性关系。
不具有线性关系的连续变量可能需要使用不同的技术(如变量的对数转换)或者更复杂的方法进行建模。也可以使用更高级的方法来执行多变量模型中的线性检验。
在Cox生存模型中,该模型的一个重要假设是比例风险模型假设——即协变量对结局事件风险的影响随时间成比例。可以通过多种方式进行检验,如绘制KM生存曲线或基于Schoenfeld
残差的统计图和检验。
本研究中我们通过Akaike信息准则使用逐步后退法来构建最佳拟合模型,进行这一步后,纳入预测模型的变量包括:收缩压与舒张压、心率、温度、白细胞计数、血红蛋白、血细胞比容、钾、氯化物、性别、入院类型、种族和婚姻状况。
为了进行比较,还使用了LASSO的logistic回归拟合了模型,并选择了几个其他变量以包含在该模型中。LASSO模型的更多详细信息在补充附录中提供。
7. 模型性能
模型在构建好以后,需要评估预测模型的性能,查看预测感兴趣结局的效果如何。
预测模型的准确性有两个组成部分:区分度和校准度。
7.1 区分度
区分度是模型区分感兴趣结局的能力。与存活患者相比,死亡患者应该有更高的预测风险。
在二分类结局变量的模型中可以使用C统计量(一致性统计量)来检验区分度,C统计量可以扩展应用于包含时间数据的Cox回归模型。
在本研究中,结局变量为二分类变量,C统计量等于ROC曲线下面积,这为模型区分度的可视化提供了一种有用的方法。
C统计量的范围从0-1。
0.5表示没有判别能力;
1表示可以将发生感兴趣结局和不发生感兴趣结局的病例完美分开。
0.5-0.69表示判别能力较差;
0.70-0.79表示可以接受;
0.80-0.89表示优秀;
0.90以上表示判别能力很优秀。
7.2 校准度
模型性能评估的第二个组成部分是校准度:实际死亡风险与预测死亡风险的一致性(拟合优度)。
对于逻辑回归模型,可以通过绘制预测死亡风险(x轴上从0%到100%)和实际死亡风险(y轴上0为存活,1为死亡)的关系图来说明(图1)。


详情请点击下方:
https://mp.weixin.qq.com/s?__biz=MzAwOTYyMDY3OQ==&mid=2650407017&idx=2&sn=1d1b4ba3e981bf215e2a89ddaadc6ffd&chksm=83527dc1b425f4d7fd0b2a68c799905a0537b00110066cbc83b574d552f5fc280eb4c1c90ff7&token=1449596681&lang=zh_CN#rd
