欢迎光临散文网 会员登陆 & 注册

文献学习-如何对预后模型研究进行系统回顾和meta分析

2023-06-15 11:31 作者:山海说了话  | 我要投稿

摘要

背景介绍

预测模型的开发通常是为了估计个人在特定健康状态下出现特定健康结果的风险,以支持(共同)决策。对预后模型研究的系统回顾可以帮助识别需要进一步验证的预后模型或准备在医疗保健中实施的预后模型。

目标

逐步指导如何进行和阅读预后模型研究的系统综述,并提供综述进展的每一步的方法和指导。

内容

我们描述了对预后研究进行系统回顾的以下步骤: 1)使用人口、指数模型、比较者模型、结果、时间、环境的格式制定回顾问题,2)检索和选择文章,3)使用预测模型研究系统回顾的关键评估和数据提取(CHARMS)检查表提取数据、 4)使用预测模型偏倚风险评估(PROBAST)工具进行质量和偏倚风险评估,5)分析数据并进行定量meta分析,以及6)提交结果摘要,解释结果,并得出结论。每个步骤的指导都有描述,并使用一个关于COVID-19患者的预后模型的案例研究来说明。

应用

对预后研究进行系统回顾的指导是可用的,但这些回顾对临床实践和进一步研究的影响高度依赖于初级研究的完整报告。


引言

对个性化的、基于风险的或分层的医学需求越来越大。这意味着关于治疗和进一步诊断测试的医疗决定最好是针对病人,而不是基于 "一刀切 "的方法。因此,关于个体患者预后的信息至关重要。调查生物标志物、预后因素和预后模型的研究数量一直在迅速增加。需要对其主要出版物的信息进行系统回顾总结。

我们将预后研究分为三种类型:

1. 总的预后研究使人们了解在特定的时间范围内,患有特定健康状况(不一定是疾病)的一群人的某些结果的发生情况。

2. 预后因素研究的目的是确定与患有特定健康状况的个人在特定时间内发生特定结果有关的特征。

3. 预后模型研究在一个多变量预后模型中结合了多个预后因素,旨在对患有特定健康状况的个体在特定时间内发生的某种结果进行预测。关于预后模型的研究可以进一步分为模型开发、模型验证或这些的组合。

重点讨论第3类,即预后模型研究的系统回顾,但大部分的原则和指导可以很容易地适应于其他类型的预后研究回顾。

对于许多疾病、目标人群和结果,已经开发了多种预后模型。例如,慢性阻塞性肺病预后的预测模型超过400个,预测普通人群心血管疾病发生的模型363个,COVID-19诊断和预后的模型232个,预测肺结核治疗结果的模型37个,以及疟疾临床管理的模型27个。预测模型的系统回顾提供了对现有模型、其质量(偏倚风险)和预测性能的概述。这些综述可以作为一种有价值的工具,以决定在医疗实践或公共卫生中应进一步评估或实施哪些预后模型。预测模型研究的系统回顾可能包括以下目的:

1. 识别所有已开发或验证的预后模型--针对特定目标人群、条件或预后结果。

2. 总结特定预后模型的预测性能,并确定该模型在多个外部验证研究中性能的异质性来源(表1)。

3. 总结和比较几个预后模型在这些模型的多个外部验证研究中对某一目标人群、条件或结果的预测性能。

4. 确定特定的预测因子,当添加到特定的现有预后模型中时,是否能改善该特定模型的预测性能。

本文的目的是逐步指导如何进行和阅读预后模型研究的系统综述(无论具体目的如何),并提供综述进展的每一步可用的方法概述(图1)。在此,我们没有区分是通过普遍的回归模型技术(如事件发生时间模型或逻辑回归模型)还是使用基于人工智能或机器学习的现代技术来开发预后模型。模型开发的方法并不改变系统回顾的必要步骤。我们用一个案例来说明每一个步骤:目前正在进行的COVID-PRECISE动态回顾的第三次更新,是关于预测COVID-19患者预后的模型(见https://www.covprecise.org/)。我们选择了这个例子,因为许多已发表的预后模型的系统综述都有与这个COVID-PRECISE动态综述类似的目的(即确定所有可用于特定人群或特定结果的预测模型)。我们还参考了Cochrane预后方法组的网站(https://methods.cochrane.org/prognosis/tools),以获得关于预后模型回顾的每一步的详细指导,下文将对此行讨论。


第1步:制定回顾问题

进行系统回顾的第一步是提出一个回顾问题。这是一个重要的步骤,因为回顾过程的所有后续步骤都是由问题决定的,包括检索策略、资格标准、从纳入的研究中提取数据的项目、meta分析方法的选择和结果的解释。预测模型研究系统性回顾的批判性评价和数据提取(CHARMS)核对表提供了制定预后研究回顾问题的指导,并在随后得到进一步发展。这些论文以及Cochrane预后方法组的指南都建议使用PICOTS系统来制定回顾性问题(表2)。这是对PICO(Population, Intervention, Comparator, Outcome)系统的改编和扩展,该系统通常用于干预和诊断测试准确性研究的系统回顾。建议预后研究的系统回顾也要明确考虑时机(进行预后的时刻和预后的时间段,即预测范围)和环境(模型打算使用的背景)。

案例研究 在案例研究中,我们旨在对所有可用于诊断为COVID-19的患者的预后模型进行广泛概述。因此,审查的问题是:"目前有哪些已开发和/或验证的模型可用于预测COVID-19患者的预后或感染过程,这些模型的有效性和实用性如何?" 使用PICOTS格式:

-人口:证实或怀疑有COVID-19的患者

-指数模型:所有可用的预后模型

-比较者模型:不适用

-结果:所有结果(如死亡率、入住ICU和发展为严重疾病)。

-时间:(1)预测的时刻是在COVID-19诊断的时刻或之后不久;(2)所有预测范围

-环境:住院病人和门诊病人

由于该范围综述的目的是对特定患者群体(即被诊断为COVID-19的患者)的所有可用模型进行概述,我们没有限制特定的指数模型、结果、预测范围和环境。


第二步:检索和选择文章

检索预后模型研究通常包括MEDLINE和Embase等数据库。这可能是一个挑战,因为出版物通常不被索引为预后研究,也不限于独特的研究设计。例如,研究人员可能采用 "预后"、"预测"、"预测"、"风险因素"、"模型 "或 "算法 "等术语来描述其目标、方法和结果。此外,预后模型研究可以基于前瞻性或回顾性队列研究的数据、随机试验的数据、常规护理数据登记的数据,以及许多其他研究设计。因此,从标题和摘要中很难确定一项研究是否是关于预后模型的。因此,识别这些研究的检索策略非常广泛,通常结合PICOTS的要素。因此,需要对标题、摘要和全文进行筛选的论文数量有时可能比较多。已经开发并验证了缩小检索范围的搜索过滤器。例如,Geersing过滤器与Ingui过滤器相结合,在识别预后论文方面的灵敏度为0.95。

在特定情况下,有可能大幅减少系统回顾的检索空间。例如,专注于一个特定预测模型的系统综述(如EuroSCORE)可以在检索查询中加入该模型的名称作为要求。另外,也可以对引用该模型原始开发论文的研究进行引文检索。对于其他类型的系统回顾,滚雪球始终是识别所有相关研究的重要步骤。这意味着应该对相关的系统综述和纳入的主要研究的参考文献列表进行筛选,以确定可能被检索策略遗漏的研究。

在运行检索策略后,必须将确定的参考文献分为与综述问题相匹配的相关研究和不相关的研究。理想情况下,每个参考文献由两个或更多的审稿人独立审阅,首先审阅标题和摘要,然后根据全文审阅。不一致的地方应通过讨论或让第三位审稿人参与来解决。

案例研究 在案例研究中,使用由SARS和COVID-19相关检索词组成的半自动搜索字符串,搜索了截至2020年7月1日的关于COVID-19的公开可用动态证据集。检索策略的细节可在该倡议的网站上找到。由于本综述是在COVID-19大流行之初进行的,我们还搜索了在bioRxiv、medRxiv和arXiv上发表的预印本;摘要和全文由独立审查员进行一式两份的资格审查。差异通过讨论解决。纳入的研究中,开发和/或验证的预后模型是用英文写成的,并符合PICOTS的要求。检索发现了37 421条记录,其中444条进行了全文资格筛选,107项预后模型研究被纳入。


第3步:数据提取

在确定和选择了相关的研究后,下一步就是要从纳入的研究报告中提取必要的数据。这项工作最好由两个或更多的评审员独立完成,以避免错误和遗漏相关信息。数据提取提供了必要的信息,以呈现所纳入研究的描述性表格,并允许对所纳入研究的结果进行定性总结,如果需要,也可能进行定量(即meta分析)。CHARMS检查表是为指导预后模型研究的数据提取而开发的。

PICOTS定义了需要提取的关键信息,即纳入的参与者、结果和预测因子的定义和测量、预测和结果评估的时间细节以及环境。此外,还需要收集有关数据来源、样本量和结果参与者的数量、统计分析的细节,如缺失数据的处理和预测因子的选择,以及模型的预测性能,包括分辨力和校准性能及其相应的标准误差或置信区间(表1)。此外,如果在主要研究中提出,与预后模型的临床效用有关的措施,如决策曲线分析的结果和净收益,应在评审中提取并提出。

在许多情况下,评审员会面临这样的问题:他们感兴趣的信息没有得到足够详细的报告。因此,可能有必要联系研究作者,以避免偏倚。另外,也可以在数据提取时恢复缺失的信息。这方面的方法已经有详细描述。

案例研究 使用基于CHARMS检查表的标准化表格来提取数据。提取的数据涉及人群(如确诊或疑似COVID-19)、环境(如住院病人或门诊病人)、模型中包含的预测因素(如病人特征、影像学或血液生物标志物)、结果(如死亡率、入住ICU或进展为严重疾病)、时间(如住院或30天内)、参与者和结果的数量、分析(如模型的类型、缺失数据的处理)和预测性能措施。


第4步:质量和偏倚风险评估

当研究在设计或分析中存在缺陷或瑕疵,有可能导致无效或扭曲的结果时,就会出现偏倚风险。需要解决一项研究对审查问题的适用性问题,因为有可能一项研究确实符合资格标准,但并不完全符合审查的PICOTS。例如,一个预测模型可能是为预测疟疾患儿严重贫血和败血症的综合结果而开发的,而系统综述则只关注败血症的预测。

对于预测模型的研究,应使用预测模型偏倚风险评估(PROBAST)工具来评估偏倚风险和纳入研究的适用性(www.probast.org)。该质量评估工具可用于预后(和诊断)模型的开发、验证和更新研究,以及旨在量化特定预测因子是否对现有预测模型具有附加值的研究。这些研究被评估为四个领域:参与者、预测者、结果和分析。每个领域都包含信号问题,可以用 "是"、"可能是"、"可能不是"、"不是 "或 "没有信息 "来打分。所有的信号问题都是这样制定的:"是 "表示没有偏见。适用性是针对前三个领域进行判断的。偏见的风险和对适用性的关注可以分为 "低"、"高 "或 "不明确"。目前正在开发针对使用人工智能或机器学习的预测模型的PROBAST(PROBAST-AI)。对于预后因素研究,QUIPS工具可用于偏倚风险评估。由于该工具专注于预后因素研究,因此不建议将其用于预后模型研究。

案例研究 在我们的案例研究中,PROBAST工具被用于评估所包括的预后性COVID-19模型的偏倚风险。大多数研究的总体偏倚风险都很高(图2)。这主要是由分析领域的高偏倚风险引起的,其中包括低样本量和缺乏内部或外部验证。


第五步:分析数据和进行定量meta分析

只有当同一指数预后模型有五个以上的外部验证研究时,才建议对预测模型的性能进行meta分析。meta分析包括计算预测模型性能的加权平均数,其中研究权重(在某种程度上)由研究的标准误差定义,因此也包括样本量。

对于预后模型的回顾,重点是识别所有已开发的针对特定目标人群、条件或结果的预后模型,meta分析并不适用,因为如前所述,需要对同一模型进行多项验证研究。如果认为meta分析没有附加价值,或者进行meta分析不可行(例如由于同一预后模型的验证研究数量太少),可以用描述性统计、表格和数字的形式来总结结果。

回到一个预后模型在多个不同的研究中被评估其预测性能的情况,这些所谓的外部验证研究很可能在许多方面有所不同,如人群特征、预测因子和结果的定义和测量,以及应用研究设计或数据来源。这就是所谓的研究间异质性。由于这种研究间的异质性,通常建议采用随机效应meta分析而不是固定效应meta分析。如果研究足够相似(最好由临床专家判断),或者存在异质性但研究者有理由进行meta分析(如研究是异质性的,但模型性能不是),可以进行鉴别性能(如c统计量或接收操作特征曲线下的面积)和校准(如观察到的预期[OE]比率,校准斜率)的meta分析。R包,如metamisc和metafor可用于此。

主要的兴趣在于围绕集合鉴别和校准估计的预测区间。预测区间表明在一项新的研究中可能发现的性能。预测区间不仅包括围绕集合估计值的不确定性,还包括研究间的异质性。预测区间通常比置信区间更宽,表明研究之间存在异质性。应使用亚组分析和元回归来进一步探讨这种异质性的来源。

案例研究 在案例研究中,旨在确定所有现有的已开发和验证的COVID-19患者的预后模型,由于没有一个模型在多个研究中得到验证,所以不可能进行meta分析。因此,只能对确定的模型进行描述性总结,包括资格标准的特点、模型中包括的预测因子、预测结果、分析方法和性能指标。

然而,为了说明问题,在另一个关于集合队列方程预测成人普通人群未来心血管疾病发生率的系统回顾中,对c统计量和OE比率进行了meta分析(图3)。对OE比的元分析包括20个外部验证,得出的集合估计值为0.76,表明平均而言,该模型高估了观察到的结果的数量。预测区间很宽,从0.38到1.55。这表明未来的研究可能也会发现高估了观察到的结果,但也有可能会有研究发现低估了观察到的结果。


第6步:提出研究结果的摘要,解释结果,并得出结论

系统综述的最后一步是清晰地呈现研究结果(如在研究结果摘要表中)、对结果的解释以及作者的结论。

以下项目可以指导综述作者有效地交流综述的结果和结论,从而提高综述证据的可用性:

 1)是否提供了关于PICOTS和预后模型性能的所有必要信息;

2)预后模型的总结性能在校准和鉴别方面是否足够;

3)针对特定人群和特定结果,这些模型的总结证据的确定性如何。

为了能够就预测模型的普遍性的证据的确定性得出有效的结论,最好是对同一人群有多个相同的预测模型和足够质量的外部验证研究。为评估系统回顾的总体证据的确定性而开发的方法是建议评估、发展和评价分级法(GRADE)。对于预后模型的系统回顾,GRADE还没有,但目前正在开发中。在预后模型的GRADE可用之前,建议对整体预后研究和预后因子研究的GRADE指南进行调整(将关联的测量方法改为模型的性能测量,将预后因子的探索和确认阶段改为模型的开发和验证)。

案例研究 案例研究中没有使用GRADE方法。因此,系统回顾的结果是根据不断演变的COVID-19大流行病来讨论的。例如,作者得出结论,大多数预测模型的报告很差,而且有很高的偏倚风险。此外,他们确定了一个有希望的预后模型,建议由独立研究人员对其进行进一步的外部验证。


结语

预后模型的系统回顾是决定进一步验证或评估的重要工具,如果适用的话,可以实施最相关或最准确的模型。

为了使这种回顾成为可能并得出有价值的结论,首先必须对主要预后模型研究进行完整和透明的报告。因此,《个人预后或诊断的多变量预测模型的透明报告》(TRIPOD)声明已经发布。遵守TRIPOD声明是信息性评论的要求,应予以推广。

目前,针对使用人工智能开发的预测模型(TRIPOD-AI)的TRIPOD声明的更新正在开发中,以及针对预测模型研究的系统回顾和meta分析报告的TRIPOD-SRMA。

参考文献

Damen JAA, Moons KGM, van Smeden M, Hooft L. How to conduct a systematic review and meta-analysis of prognostic model studies. Clin Microbiol Infect. 2023 Apr;29(4):434-440. doi: 10.1016/j.cmi.2022.07.019. Epub 2022 Aug 4. PMID: 35934199; PMCID: PMC9351211.


拓展-临床预测模型的评价指标

1. 区分度评价指标:C指数(C-Index),重新分类指数(Net reclassification index,NRI);

c指数一般而言,我们将0.51-0.7认为是低可信度,0.71-0.9为中等可信度,> 0.9为高可信度。

对于NRI的计算,其主要是比较新旧两个模型之间存在区分度。其中,updown主要定义了一个样本的风险是否变动的方式,category是指分类值,即熟悉的低、中、高风险,另有一种diff,为连续值。

Cut是判断风险高低的临界值。当updown为diff时,cut只需设置1个值,比如0.05,即认为当预测的风险在新旧模型中相差5%时,即被认为是重新分类了;而当updown为category时,可以对cut设置两个不同的值,即0~29%为低风险,30%~59%为中风险,60%~100%为高风险。


2. 一致性评价指标:校正曲线(Calibration plot);


对于Calibration plot,横坐标为模型预测得到的患者生存率,纵坐标为患者实际观察得到的生存率,三点之间的联系与虚线之间越相近,越能说明模型良好的一致性。


3. 临床有效性评价指标:决策分析曲线(Decision Curve Analysis, DCA)




 


 




文献学习-如何对预后模型研究进行系统回顾和meta分析的评论 (共 条)

分享到微博请遵守国家法律