衷心建议收藏:预测模型系统评价的基本思路

原文来自本人的同名公号:护理统计随笔,欢迎关注。
看到这个标题,你是否会惊讶:预测模型竟然还能做系统评价?
对于系统评价,大家应该是不陌生的,循证医学和循证护理的浪潮掀了十几年也没停歇,反而愈演愈烈。但是,很多人仍然还不十分清楚临床预测模型或者风险预测模型,更遑论预测模型的系统评价了,这里就简单分享下预测模型系统评价的基本思路和做法,并分享一篇来自BMJ的文献。如果你觉得以后用得上,可以收藏起来慢慢看。
如果你还不曾了解临床预测模型,但又对临床预测模型入门的进阶有兴趣,可以看看这些文章:零基础入门临床预测模型?看这篇就够了!(保姆级实操演示请收好了)
纯干货,必看!临床预测模型的建立与验证全流程(含机器学习算法)
一、背景
随着临床预测模型的火热,数以万计的预测模型被开发,甚至出现针对同一种结局变量会开发多个模型的情况。然而不少预测模型研究存在报告质量不佳、结论矛盾、模型偏倚风险高、准确性和适用性不佳的问题。一个经典的句子足以概括这些预测模型:“多数被建立,少数被验证,极少被应用”。为了改变这种尴尬的现状,评估这些模型的可用性,研究者们开始采用循证的思想对这些预测模型进行系统评价。
二、预测模型系统评价的基本思路
与随机对照研究、观察性研究等常见类型的系统评价思路类似,预测模型的系统评价总体上也没有什么特殊,遵从选题、注册、检索、筛选、提取数据、质量评价、定量合并、撰写论文等基本流程,见下图。

选题没什么可聊的,诊断模型与预后模型都可以做。其余的制作思路也与常规系统评价类似,但这就就意味着制作和撰写一份预测模型的系统评价简单吗?不然,它还有这么几个特殊点:
①文献检索
检索方案复杂,建议采用特定的检索过滤器,确实好用,个人建议尽量多用,具体检索策略看下图。

②文献筛选
遵循PRISMA 声明绘制文献筛选流程图;
③数据提取
根据CHARMS清单提取文献的数据:需要收集的内容着实不少,见下图:


④文献质量评价
采用PROBAST工具评价预测模型研究的偏倚风险评价,PROBAST 工具包括研究对象、预测变量、结局和统计分析 4 个领域,20 个条目,见下图。

⑤异质性检验
注意,这里是预测模型系统评价比较特殊的地方,分两种情况:
第一种情况:如果纳入的都是模型开发研究,就没有必要进行异质性和meta分析了,直接做描述分析即可,此时就类似于范围综述。当前医学领域多数已发表的预测模型系统评价文章就属于这类,难度较小,按照前面的步骤和要求做即可。
第二种情况:如果说同一个开发模型已经被多个队列进行验证或者不少模型都已被多次验证,此时就需要对其进行异质性检验。举个例子,我想要研究COPD预后模型的系统评价,并收集到了20个不同的模型,其中1个模型有多个外部验证研究,如此就需要探索异质性的潜在来源,了解模型在什么情况下保持良好的性能,以及模型何时需要进一步改进。如何做呢?基本是推荐使用HKSJ方法合并区分度和校准度的预测区间,预测区间较宽,表示可能存在明显的异质性。
⑥Meta分析
当同一种预测模型的验证研究数量满5篇,建议使用HKSJ 方法对预测模型的性能指标(区分度、校准度、DCA等)Meta 分析,模型采用随机效应模型(异质性大,不要用固定效应)。这些方法都可以在R 包“metamisc”实现(下期分享做法),该包除了可以实现频数流派估计方法之外,还可以做贝叶斯估计。
异质性过高时建议进行亚组分析和meta回归。当进行了meta分析,还建议进行敏感性分析,避免因个别低质量的研究影响 Meta 分析结果的稳定性和可靠性。
还有一种情况!有些研究(护理领域多见)会对其所综述的预测模型中排名靠前的预测因素进行meta分析,效应量采用OR或者RR,进行定量合并,并绘制森林图。
⑦证据质量评价
可使用用预后研究和预测因子研究的GRADE 工具评估预测模型系统评价证据的质量。
⑧撰写论文
遵循 PRISMA 2020 声明进行系统评价论文的撰写,并建议参考TRIPOD 声明(开发和验证预测模型的规范)。

三、BMJ文献分享

doi: https://doi.org/10.1136/bmj.l5358
这是1项慢性阻塞性肺疾病患者预测模型的系统评价,限于篇幅,简单介绍下:
①文献检索情况
该研究经过检索,获得了228 篇符合条件的文献,其中描述了 408 个预后模型的开发情况、38 个模型的外部验证情况以及 20 个针对慢性阻塞性肺病以外的其他疾病预后模型的验证情况。

②开发环境与结果变量
这 408 个预后模型是在3种临床环境下开发的: 门诊病人 (n=239;59%)、住院病人 (n=155;38%) 和急诊科病人 (n=14;3%) 。在 408 个预后模型中,最常见的终点是死亡率(n=209;51%) 、慢性阻塞性肺病急性加重风险 (n=42;10%) 和入院指数后再入院风险 (n=36; 9%)总体而言,最常用的预测因子是年龄 (n=166;41%)、一秒钟用力呼气量 (n=85; 21%) 、性别 (n=74;18%) 、体重指数 (n=66; 16%) 和吸烟 (n=65;16%) 。


③模型的基本特征
在 408 个预后模型中,有 100 个 (25%) 通过了内部验证,91个 (23%) 通过了外部验证。有 286 个 (70%) 模型没有模型校准,只有 56 个 (14%) 模型进行了校准。38 个模型经过了外部验证,但其中只有 12 个模型的验证工作是由一个完全独立的独立团队。各模型的基本特征见下图(节选)。

④偏倚风险
文献根据 PROBAST 方法,只有7个预后模型(开发)的总体偏倚风险较低。


⑤预后模型的Meta分析结果
对 12 个预后模型的 C统计量进行了荟萃分析,总结估计值从 0.611 到 0.769不等,但没有对校准度进行meta分析(因为外部验证研究没有标准报告校准指标),森林图如下。


四、小结
码字仓促,如果你发现有漏洞、错误、或者错别字,还请批评指正。总体来说,预测模型的系统评价与常见研究的系统评价区别不大,除了一些评估工具有差异之外,比较特殊的地方是定量分析模块,比如meta分析。
当前,还是比较少看到有人分享预测模型meta分析的具体做法,但下期我会继续分享这些内容,感谢阅读,下期见。
图文参考资料:
[1]预测模型系统评价的制作方法与步骤;
[2]Prognostic models for outcome prediction in patients with chronic obstructive pulmonary disease: systematic review and critical appraisal