文献学习-预测预后的回归模型策略
引言
确定与结果相关的特征对于比较替代疗法、设计临床试验和咨询个体患者具有重要意义。反映历史症状、体征和检查结果的大量特征使预后因素的确定变得复杂。
在一个回归模型中包含大量的因素,似乎可以改善在开发模型的样本中的预测。然而,对一个独立样本的拟合模型进行检验,往往表明其预测精度有所下降,反映了模型对训练数据的过度拟合。
一组预后因素的价值取决于新患者样本的重复性。如果不考虑独立样本中模型的稳定性,研究人员可能仍然没有意识到,由于数据或多重比较中的“噪声”,一些因素代表了与结果的虚假关联。此外,数据集中的细微变化可能导致选择不同的特征。这使得临床医生在哪些因素实际上具有预后重要性方面左右为难。当统计显著性是将预后因素包括在集合中的唯一标准时,选择的变量的数量是样本量的函数。
有一些可供选择的回归建模策略可用于改善模型的稳定性。本研究将两种策略与标准变量选择法进行比较。
通常的逐步回归策略的第一个修正是不完全主成分回归(IPC) ,其中通过对估计参数设置线性约束来提高模型的稳定性。
第二个修正是统计和临床变量聚类的结合,其中一个放置不同种类的限制回归模型。
通过在同一训练样本集上建立模型,然后在同一测试样本集上评估预测精度,对三种方法进行了比较。对于所有这三种方法,我们还检查了改变训练集样本大小的效果。预测精度包括两个方面。首先,预测应该是可靠的。例如,如果一个人预测一个病人存活两年的概率是0.65,那么这个概率真的是0.65吗?我们可以通过根据预测的概率(例如通过十分位数使组足够大)将独立样本分成组来评估可靠性,然后将每个组中存活的比例(Kaplan-Meier 估计)与组的平均预测生存概率进行比较。我们不再讨论预测的可靠性。
预测准确性的第二个方面,或许也是更重要的一个方面,是区分度。一个预后模型的区分是有能力区分患者的良好和不良的结果。在这种情况下,我们希望量化的程度,预测生存概率较低的病人死亡较早。在判断一个模型的相对性能时,我们之所以主张优先考虑区分度,是因为如果区分度恶化,任何调整或校准都不能修正模型。另一方面,通过良好的判别,可以在不牺牲判别的情况下校准预测器以获得可靠性。
数据
患者样本包括自1969年以来在杜克大学医学中心接受心绞痛心脏导管插入术治疗的连续4226例患者。排除既往有心脏手术史的患者。所有的患者都被怀疑患有冠状动脉疾病,导管插入术在三分之二的患者中证实了这一诊断。患者随访99% 完成。发生心血管死亡416例。虽然心脏导管插入术定义了预后的重要特征,如冠状动脉解剖和心室功能,但开发的模型仅使用非侵入性确定的患者特征,以便在导管插入术之前可以估计新患者的预后。表一列出了患者病史、体格检查、胸部 X 光和静息心电图(ECG)的变量,这些变量用于建立预测心血管死亡时间的模型。以前的出版物提供了变量定义和数据收集方法的详细描述。我们审查了死于非心血管疾病的患者(在死亡时活着撤回)。接下来,“死亡”指的是心血管死亡。
我们将患者随机分为两组,每组死亡人数相等。训练集和测试集均包括2113例患者,其中208例死亡。为了研究训练样本的大小对预测判别的影响,我们先后使用了原始训练样本中较小的子集。我们通过随机抽取原始训练样本的一半来构建这些子集,然后随机抽取原始训练样本的四分之一,然后随机抽取原始训练样本的八分之一。这些训练样本之间存在重叠。我们验证了所有的模型开发使用给定的训练样本相同的测试样本的2113名患者。

一种预后模型的判别指数
通过预测在连续尺度上测量的响应,不需要任何审查,预测精度的自然量化是预测值与真值的接近程度。例如,可以计算均方误差来量化给定模型的准确性,或者计算一个模型的预测与另一个模型的预测相比更接近观察值的患者数量。对于一个被删减的变量,例如事件发生的时间,我们需要一个容易解释的预测能力指数。秩相关是导出带有删失或非连续响应变量的区分度指数的自然选择。
根据由 Brown,Hollander 和 K ~ rwar 开发的 Kendall tau 等级测试,Harrell 等人推导出一个他们称之为 c 的一致性指数(c index),为了计算 c,采用所有可能的患者配对。对于一个给定的对,我们说,预测是一致的结果,如果病人有更高的概率估计活得更长。如果两个病人都还活着,或者只有一个人死亡,而另一个人的随访时间比第一个人的生存时间短,我们就不计算这两个人。c index是我们可以确定生存时间顺序的所有对患者的比例,以便预测是一致的。这个指数是一组预测概率和真实结果之间的肯德尔-古德曼-克鲁斯卡尔型相关性的线性映射。这个指数很容易解释,因为它估计的概率是随机选择的一对患者,预测存活率较高的那一个是存活时间较长的那一个。在测量二元结果(如疾病的存在)模型的区分度时,c 减少到成对患者的比例,一个患有疾病,一个没有疾病,使得患有疾病的患者具有更高的预测疾病概率。在这种情况下,c 是“ ROC曲线”曲线下的面积。
逐步变量选择策略
(STEPWISE VARIABLE SELECTION STRATEGY)
我们使用 Breslow 的 Cox7比例风险模型的6个公式,用一组给定的变量来预测直到死亡的时间。为了选择“显著”变量,我们采用了一种策略,使用 Rao 的有效得分统计提出的 Bartolucci 和 Fraser’适用于哈雷尔的 Cox 模型。简而言之,我们从表一中列出的30个变量中选择变量,直到没有其他候选变量在0.05水平保持显著性。
表 II显示了这种标准的逐步方法对模型的区分。为了计算,我们使用 Kalbfleisch 和 Prentice 的方法,用 Cox 模型估算了每个病人存活两年的概率。由单个训练样本的 c 指数测量的模型的表观质量随着训练样本的减少而改善。然而,正如在测试样本中评估的那样,模型的真实能力随着训练样本的减少而恶化。表面区分度和真实区分度之间的差别恶化得更快。
逐步变量选择的一个固有问题是,选择的变量,特别是在后面的步骤,可能代表噪声和导致预测能力实际上恶化,在一个新的样本。仅使用显著性级别输入变量的策略忽略了实际进行的多重比较的数量。考虑每个步骤所做的事实测试数量的一种方法是计算每个步骤中所有候选变量的“残差卡方”这个统计的自由度等于候选人的数目。
一个合理的停止规则是添加变量,直到残差卡方在0.05的水平不显著。另一个停止规则是基于 Akaike 的信息标准(aIC) ,在正常情况下相当于马洛的线性回归。”AIC 如下: 假设有一个具有 p 参数的模型,并考虑使用一个更复杂的具有 p + q 参数的模型。对于更复杂的模型,如果它增加了 q 的对数似然,即如果它增加了2q 的模型的整体对数似然卡方。这相当于在候选者的剩余卡方超过其自由度两倍的情况下向模型中添加 q 变量。如果残差卡方确实超过2q,可以更安全地将最重要的 q 变量添加到模型中。
对于有55人死亡的原始训练样本的四分之一,表 I11显示了每个变量加起来的剩余卡方。根据测试样本中的 c 指数,一个变量不需要超过5个。基于残差卡方显著性的停止规则选取6个变量。在其他例子中,测试样本中的预测在添加了超过这些停止规则所规定的点的变量之后会恶化。逐步变量选择策略的结果很难解释。用于开发模型的样本变化较小,选择的变量集合,有时制定等效模型,似乎向临床研究人员传达不同的信息。作为演示,表四显示了为以前使用的训练集的随机季度以及替换产生的训练集的另外两个随机季度选择的变量,按照统计显著性的顺序。选择的因素有很大的差异,即使在选择最高的一个或两个因素。事实上,尽管选择的因素主要反映了心肌损伤、血管疾病和疼痛的严重程度,但是这三个模型只有两个共同的变量。所选因素的这种变化可能是由于样本之间的偶然波动或自变量分布的变化造成的。例如,如果一个样本的年龄分布很窄或者心电图异常的发生率很低,那么将这些变量作为重要的预后因素的可能性就会降低。



training sample listed in order of selection
不完全主成分(INCOMPLETE PRINCIPAL COMPONENTS,IPC) COX 回归
前面的例子表明,当必须考虑许多相对于未删失观测数的协变量时,通常的逐步变量选择策略不会产生可重复的模型。要包含哪些协变量的识别比 p 值使其显示更具任意性。
马夸特和斯尼”指出,“最好是使用一点点的所有变量比所有的一些变量和没有其余的变量’。如果估计所有协变量的参数,则必须对参数估计施加限制,以控制其均方误差。岭回归是解决这个问题的一种方法,但它具有随意性(必须选择一个收缩常数) ,而且难以应用于普通线性回归以外的问题。
不完全主成分回归是另一种限制参数的方法。它是通过减少要估计的参数的有效数量来实现的。我们可以将 IPC 回归 I2应用于任何在协变量中是线性的回归模型。由一组变量 x,,x,,. . ,x 得出的第一个主要 c ~ 分量’(pc) ,是受标准化约束的线性组合,在患者之间具有最大方差的 x。第二个 pc 是 x 的线性组合,在所有与第一个 pc 无关的线性组合中,x 的方差最大。一般来说,第 i-1 pc 是所有与第 i-1 pc 无关的线性组合中方差最大的 x 的线性组合。如果 X 之间没有线性约束,那么所有的 X 都是 p PC。对于许多问题,我们可以总结一个很大的比例的 X 变异在患者之间使用少于 pcs。换句话说,我们可以将从 p 患者特征得到的统计信息减少到 q (< p)不相关成分。人们不会单独分析冗余的测量或测量,因为这些测量在不同的病人之间没有太大的差异; 由此产生的数据会减少。
执行 IPC 回归如下。对于一组 p 协变量,首先计算协变量的 p 主成分,按照解释的变化量的顺序。以 PC 的一个子集为例,解释患者之间协变量的大部分变化。接下来在变量选择程序中使用 q pcs 作为候选变量,并强制回归程序按顺序选择 pcs,直到在给定步骤中不在模型中的 r pcs 在005水平上使用具有 r 自由度的残差卡方统计量联合不显着。根据解释的方差顺序,引入选择序,在模型中引入了稳定性,降低了噪声。使用残差卡方作为一个停止规则允许一个人选择一个适当的集合来描述响应,同时避免了问题,如果第二个个人电脑不重要,而第三个是重要的,一个人可能会选择前三个个人电脑。如果候选个人电脑的数量很少(比如说 < 5) ,可以选择不强制组件的选择顺序。
然而在其他情况下,通过强迫顺序来降低有效自由度会增加模型的稳定性。在大多数数据集中,我们发现第一个 pc 是迄今为止预测存活时间最重要的因素。
在本例中,p = 30,我们选择 q = 10,即使使用特征值来检查解释的变化量将导致我们选择少于10个组分。此外,我们只使用训练样本数据计算 PC,以避免在评估 IPC 模型的性能时出现偏差。然而,一般来说,在计算机中包含测试数据不会导致严重的过度乐观,因为计算机的计算不使用结果信息。我们发现,当测试数据也用于计算个人电脑时,为预测测试样本而计算的 c 指数比平均值大001。不同大小的训练样本的 IPC 模型的结果也出现在表II中。
IPC 方法有两个缺点。首先,每个变量都需要一个回归系数; 从不排除变量。其次,模型很难解释,特别是在第一代计算机之后。人们可以通过检查个人计算机和所有原始变量之间的相关性来获得洞察力。然而,我们无法清楚地描述预后因素,以便研究人员或患者透彻了解。
变量聚类和导出指数
(VARIABLE CLUSTERING AND DERIVING INDICES)
虽然 IPC 模型预测得很好,但研究人员在解释这些模型时存在困难。此外,人们往往希望通过省略一组不能提供独立预后信息的变量来简化模型。
如果我们能够对这30个变量进行分组并推导出简单的指数,那么这些指数将为冠状动脉疾病患者的许多预测问题提供一种简洁的方法。
我们使用类似于 D’Agostino 和 Pozen 的方法的“变量聚类”技术,根据变量之间的相互关系将变量分组。变量聚类创建组,因此在一个组内,第一个 pc 解释该组中的大部分变化,第二个 pc 解释最小量的变化,组内变量高度相关,组间的第一个 pc 尽可能不相关。当某个变量与其他任何变量没有高度关联时,人们会将该变量单独放在一个组中。
组内变量通常代表相同的临床现象。可变分类算法产生了以下分类:
(1) CHF, CMG, PVC, IVCD, S3 (2) ProgPain, PainFreq, PainSev, NoctPain (3) HxCVD, HxPVD, Cbruit, Pbruit (4) HxMI, Qwave, STlW (5) Age, CadDur (6) HxCH, Prinz, Preinfar (7) LAD, RBBB (8) TypeAng, Sex, Smoke (9) DM, FHx, HxHT (10) LBBB
虽然这个分组将导致更多的可解释的模型,我们认为我们可以形成更多,我们形成了一个临床指数的每一组,我们现在将讨论。可以通过计算每个组的第一台 pc 为每个组建立一个索引。然而,个人电脑有时不能临床上解释。此外,第一代个人电脑将对低流行特征赋予较大权重,因为个人电脑的权重与其标准差成反比。我们选择的策略是根据临床直觉为每个变量分配权重,当有统计学证据表明权重不足时进行小的修改。通常情况下,组内的异常被给予相同的权重。
我们使用了一个建议的指数,通过加权变量的总和计算,来模拟直到死亡的时间。然后,我们测试构成索引的各个变量,看它们是否提供了索引中没有的独立信息,也就是说,看索引中使用的变量的内部权重是否足够。我们发现心脏病专家提出的权重只有三个例外: (1) Preinfar,最初分配1点的权重,统计学上发现需要更大的权重,(2) PainFreq,每天每次疼痛分配1点的权重,发现每次发作需要半点的权重,和(3) RBBB,被认为需要 LBBB 的一半重量,被发现需要 LBBB 的四分之一的重量。在这一点上,我们从分析中省略了 PainSev,因为我们认为它的测量误差太大。年龄、性别、 CadDur、 TypeAng 和 Prinz 仍然是个体因素。我们分离 TypeAng 是因为在研究其他终点(如冠状动脉狭窄的严重程度)时,它应该比其他疼痛描述符承受更多的重量。我们将 Prinz 与其他疼痛描述符区分开来,因为它有时是通过麦角新碱(ergonovine)心脏导管插入术测试确定的。最后的分组和权重是:

我们已经把原来的30个变量减少到10个实体。
在前面讨论的变量选择方法中,我们使用指数和分离变量作为10个候选变量。预测性区分见表II。使用指数的模型与 IPC 模型相比有较好的优势,并优于三个较小的训练样本选择个体变量的模型。对于最小的训练样本,性能会出现一些下降,在这样小的样本规模下,10个因素似乎太多,无法用于变量选择。
心肌损害指数在每个病例中都是最重要的因素。疼痛指数也很重要。我们可以很容易地解释开发的每个模型。例如“心肌损伤越严重,胸痛越严重,周边动脉阻塞性疾病越严重,病人年龄越大,预后越差”。当一个人没有时间为每个变量组开发临床指标时,人们会期望使用每个组的第一个 pc 的模型表现良好。当集合中没有连续的预测变量时,可以使用 Dagostino 和 Pozen 提出的评分方法。对于这种方法,我们假设一个组中的每个变量都是二进制的,该组的得分仅仅是积极特征的数量(例如,对于一组症状,得分是出现的症状的数量)。
结论
我们可以使用一个简单的区分度指数来研究一系列生存模型的总体表现。我们使用这个 c 指数来测量三种不同策略在单个测试样本中的预测区分度。标准逐步变量选择的验证性较差,特别是小到中等规模的训练样本。这种策略还缺乏对模型的简单解释,缺乏所谓的“重要”预后因素的独特性。
不完全主成分 Cox 回归模型验证非常好,因为测试和估计较少的回归系数。然而,这样的模型很难解释。
变量聚类技术为变量分组提供了一个有用的起点。通过推导临床指标(不直接使用结果数据) ,可以制定回归模型,这些模型可以立即解释,简洁,并且不需要牺牲通过 IPC 方法实现的大量预测性区分,除非训练样本量非常小。我们推荐使用变量聚类方法来解决潜在预测变量数量较大时的临床预测问题。
当然,一个人在任何时候在分析中注入的临床洞察力越多,最终的结果就越好。我们发现临床指标统一了许多不同的分析。在选定的患者子集或不同终点的新问题中,有效样本量太小而不能形成“从头开始”的模型,我们可以依靠指数来产生稳定的预后模型。
参考
Harrell FE Jr, Lee KL, Califf RM, Pryor DB, Rosati RA. Regression modelling strategies for improved prognostic prediction. Stat Med. 1984 Apr-Jun;3(2):143-52. doi: 10.1002/sim.4780030207IF: 2.497 Q1 . PMID: 6463451.
拓展:
C-index,英文名全称concordance index,中文里有人翻译成一致性指数,最早是由范德堡大学(Vanderbilt University)生物统计教教授Frank E Harrell Jr 1996年提出,主要用于计算生存分析中的COX模型预测值与真实之间的区分度,常用在评价患者预后模型的预测精度中。
C-index的计算方法是把所研究的资料中的所有研究对象随机地两两组成对子,以生存分析为例,两个病人如果生存时间较长的一位其预测生存时间长于另一位,或预测的生存概率高的一位的生存时间长于另一位,则称之为预测结果与实际结果相符,称之为一致。
C-index在0.5-1之间(任意配对随机情况下一致与不一致刚好是0.5的概率)。0.5为完全不一致,说明该模型没有预测作用,1为完全一致,说明该模型预测结果与实际完全一致。一般情况下C-index在0.50-0.70为准确度较低:在0.71-0.90之间为准确度中等;而高于0.90则为高准确度。
C-index是一个可以用于判断各种模型区分能力的指标,针对二分类logistic回归模型,C-index可简化为:某疾病病人的预测患病概率大于对照的预测患病概率的可能性。经过证明,针对二分类模型的C-index等价于ROC曲线下面积(AUC)。AUC主要反映二分类logistic回归模型的预测能力,但C-index可以评价各种模型预测结果的准确性,可以简单这样理解:C-index是AUC的扩展,AUC是C-index的一种特殊情况。