预测模型如何评价? 那么多评价指标都是啥意思?看完这篇你就懂啦!

小云前面分享了自己的预测模型如何与别人的模型作对比,其实在这之前,模型构建之后有一个非常重要的步骤就是“模型评价”~ ~
“模型评价”一般是通过比较人群的模型预测结果与实际观测结果,来评价预测模型的效果,主要目的就是为了告诉别人我们的模型在性能上是可靠的、足够优越的。
可能小伙伴们在文献中经常看到各类模型评价指标,最常见的就是ROC曲线上的AUC值,还有再进阶一点就是做校准曲线,再有就是比较少见的DCA曲线,那这些指标都是评价什么的呢?都代表啥意义?该怎么应用?

不急不急,听小云细细道来~ ~
p 模型评价的3类评价指标
l 区分度评价指标:ROC曲线和C指数(C-Index)
l 校准度评价指标:校准曲线(Calibration plot)
l 临床有效性评价指标:决策分析曲线(Decision Curve Analysis,DCA)
p 区分度评价指标
区分度指的是一个模型能正确把人群分为患者/非患者,或者正确区分个体是处于低风险、还是处于高风险,或者正确预测患者是存活、还是死亡等的能力,可以使用ROC曲线和C-Statistic评价。
n ROC曲线,是反映敏感性与特异性之间关系的曲线,用于评价某个或多个指标对两类测试者(如患者和正常人)分类及诊断的效果。AUC(Area Under Curve)为曲线下方部分的面积,用来表示预测准确性。

n C-index,又称C指数,一致性指数(index of concordance),主要用于计算生存分析中的COX模型预测值与真实之间的区分度(discrimination),也称为Harrell's concordance index ,与ROC曲线的AUC作用类似;在评价肿瘤患者预后模型的预测精度中用的比较多。

注:二分类变量的AUC和C-Statistic一致,都是越接近1,模型的区分度越好。一般认为,AUC或者C-Statistic在0.6以下是低区分度,在0.6~0.75之间是中区分度,高于0.75是高区分度。
p 校准度评价指标
校准度指的是结局实际发生的概率和模型预测出的概率之间的一致性,所以又叫一致性、拟合优度(goodness of fit),校准度体现了一个模型对绝对风险预测的准确性。目前校准度的评价最好的方式还是使用校准曲线图(Calibration plot) ,通过图形可以非常直观地看到预测概率和真实概率的关系。

p 临床有效性评价指标
临床都会碰到假阳性和假阴性问题,我们如果要根据模型的预测结果去干预病人,这里面就有一个干预划不划得来的问题:具体来说,比如通过某个生物标志物预测患者是否患了某病,无论选取哪个值为临界值,都会遇到假阳性的可能,假阳性的病人也会接受干预(但其实是亏损的),我们希望自己做出来的预测模型在临床使用中,在任何时候依照模型结果进行干预净受益都比默认的好(最常见的默认情况就是全干预和全不干预)。
决策曲线分析(Decision Curve Analysis,DCA)就是将依照模型干预的净受益和默认方法(全干预和不干预)干预的净受益进行比较。

DCA中的一个关键概念是“概率阈值”,即患者选择接受治疗的概率水平。结合上面这幅图,横坐标就是概率阈值,当概率阈值到达某个水平时,我们就采取治疗措施(简单理解)。此时对于一个病人来说,治疗有可能会利大于弊,也有可能会弊大于利,纵坐标就是利减去弊之后的净获益。
图中还有2条特殊的线,一条是“intervention for none,表示所有人都不接受治疗时,此时不管概率阈值是多少,净获益肯定都是0。另一条是“intervention for all”,表示所有人都接受治疗时,随着概率阈值的改变,其净获益的改变。这两条线代表了2种极端的情况。
可以从图中看出,随着概率阈值的增加,模型的净受益会下降(更精确的说法是根据模型结果进行干预的净受益会下降),但是对于我们训练的Model来讲,按照Model的预测结果进行干预的话,除了概率阈值很小的情况下,在其余的阈概率情形下模型的表现都是比较好的,并且模型表现始终比test好。那么也就直观的说明了我们做的这个预测模型确实好,确实比现有的检测技术管用。
小云之声
如果您的时间和精力有限或者缺乏相关经验,并且对生信分析和思路设计有所需要的话,“生信鸟”非常乐意为您提供如下服务:免费思路评估、付费生信分析和方案设计以及实验项目实施等,有意向的小伙伴欢迎咨询布小谷哦!
