删失数据处理中的陷阱与正确应对

在上篇文章中,我们介绍了删失基本概念,什么时候会出现删失,删失数据的类型有哪些等基础知识。那么,当删失发生时,我们应该如何正确处理?如果忽略了删失,会发生什么?今天,我们就两个案例来继续说说删失数据处理中的那些陷阱及应对方法。
案例1 处理删失的陷阱-如果忽略删失数据会发生什么?
借助JMP软件,我们可以很轻松地模拟出一组服从特定分布的数据。比如我们用μ=5.6, σ=2.3, 模拟一组对数正态分布数据。因为观测是模拟的,假设我们知道所有的真实值(True Y),但实际研究在1900这个事件时间点结束,1900之后的结果未知,即右删失。所以根据这一信息得到观测情况(Observed Y)和删失状态(Censored,失效为0删失为1),数据如下。

我们来分别看看针对删失数据三种不同的处理方法,分析结果将会有怎样的变化。
情况1:不做任何特殊处理
当研究结束时直接把1900作为结果(即超过1900的数据全按1900处理),对这样处理后的Observed Y列拟合对数正态分布。这时的对数正态分布μ≈5.4, σ≈1.9(见图7中间报表),可见与真实的μ=5.6, σ=2.3相比,不纳入删失信息的处理方法会导致拟合参数与实际参数不符,从而在右删失的情况下低估了平均失效时间(mean failure time)。

情况2:将删失数据作为缺失
在Missing Y这一列中,超过1900的数据全部替换为了缺失,而这样拟合出来的对数正态分布μ≈4.8, σ≈1.7与实际情况μ=5.6, σ=2.3相差甚远(见图7最右报表)。
情况3:使用删失信息
指示当前Observed Y中1900并非实际失效,仅仅是最后的观测时间而已,从而将研究中的所有信息都包含在分析中。这时拟合对数正态分布得到的结果与真实值μ=5.6, σ=2.3已经非常接近(见图8)。

案例2 检测限制 Limit of Detection
假如我们想预测某款杀虫剂Metacrate的产量,已知溶剂配比对产量有影响,通过实验设计DOE后得到了不同配方和剂量条件下的产量数据。但测量系统的范围有检测限制,无法检测出低于1%的产出值。如下图的数据,假设Metacrate Original Reading这一列是真实的产出情况;而图中标记为灰色的几行数据说明,由于量具的检测限制原因,最终观测到的产量为1(观测结果为Observed Metacrate列):

此外,因为这个场景下的产出量不会为负数,所以我们用广义回归的方法,在设定对数正态分布(因为标准最小二乘法基于正态分布,而观测数值较小,预测结果可能出现负数,所以使用广义线性回归和对数正态模型,可以保证预测结果为非负数)的前提下拟合预测模型。
拟合模型结果见图10:
1:只用观测情况Observed Metacrate拟合模型:
“预测值-实际值”诊断图:有部分因检验限制问题被测为1的数据点横向集中在左下角;
模型汇总报表:广义R方为0.76,模型表现中等。
模型2:如果我们将检验限制的情况(即图中的Metacrate(Lo)这一列,反映左删失信息)和观测结果Observed Metacrate一起纳入建模同时考量,这时JMP软件就会将两个响应识别为区间删失情况,纳入删失信息后模型表现就会提升很多:
“预测值-实际值”诊断图中左下角的点逐渐变为沿45°线分布,表明比起模型1的结果,模型2预测值和实际值更贴近;
模型汇总报表广义R方为0.91>0.76,AIC和BIC也比不纳入检测限值的模型更小。

可见,添加删失信息后所得的预测模型能解释产出量更多的变异。另外,在JMP也可以通过“列属性-检验限值”的功能将因测量系统导致的删失情况附加到列属性,从而应用到广义回归分析中(见图11),所得分析结果与上述相同。

通过以上2个案例,我们可以很清晰地看出,当出现删失数据时,最好将其纳入分析当中,因为删失数据本身包含观测单元的生存信息。忽略了删失,将导致分析结果的偏差。此外,两篇系列文章也为大家详细介绍了如何在JMP中表明删失,如使用两列时间法表达左、右、区间删失;以及通过一列事件时间作为响应+删失状态列的方法来表达右删失。
最后仍需要说明的一点是,关于删失的分析并不局限于可靠性领域,虽然删失数据一般出现在将时间作为响应的分析情况中,但也可能出现在其他场景中,例如第2个案例提到的检测限值。因此,希望大家可以活学活用,在处理删失数据时更得心应手,游刃有余。
参考资料
• Meeker, W. Q., and Escobar, L. A. (1998) Statistical Methods for Reliability Data. New York: John Wiley & Sons.
• SAS Institute Inc. (2017). JMP® 14 Reliability and Survival Methods. Cary, NC: SAS Institute Inc
想要在JMP中跟着实战操作的话,欢迎下载最新版的 JMP 17 免费试用。
可以复制以下链接到浏览器下载:
https://www.jmp.com/zh_cn/download-jmp-free-trial.html?utm_campaign=td7013Z000002DxWTQA0&utm_source=bilibili&utm_medium=social
