【统计】如何快速判断数据正态性
【统计】如何快速判断数据正态性
当我们进行具体的定量数据的统计分析前,我们通常需要了解它的分布情况,一般先进行正态性检验。下面介绍两种判断正态性的方法,便于读者在实际数据分析中快速判断正态性。
经验性判断
我们所得的数据都是由其总体中而来,一般来说,我们无法获知它的总体的具体分布情况。但是这不意味着统计上无法进行正态性判断。从经验的角度,我们可以作如下思考:
极大值、极小值占比情况
正态分布曲线的形状类似钟,又称为钟形曲线。直观地从其概率密度曲线的形状上来看,大部分数据取值处于中间水平,极高值和极低值的个体所占比例较低,且所有数据的取值处在一个范围之内。对于临床资料,若该变量的值恒定处在一个范围内,该变量资料一般是正态的。比如身高,非常高和非常矮的在人群中是占极少数的,一般是服从正态分布的;再比如血糖、血钾这些生化指标,这类指标一般是正态分布的。
数据是否开口
临床上,我们会遇到没有最大值或最小值的指标数据,即该数据为开口资料,这类资料一定非正态。如某些肿瘤标志物的数据,这类数据一般呈偏态分布。
数据的量纲为指数级
这一点非常好判断,一般的,抗体滴度这类指标是不服从正态的。
【小技巧】这里给出一个在阅读文献时检验正态性的小技巧。我们知道,对于正态分布的资料,其离散趋势一般不会太显著。我们可以借助正态分布的两个衡量指标(均数、标准差)来进行快速判断:若标准差大于或接近均数,且样本量足够大的话(如上百),那么该数据资料一般不服从正态,有兴趣的读者可以在实践中加以尝试。
统计方法检验
一般使用Shapiro-Wilk法进行正态性检验。在R语言中,可以借助shapiro.test函数。另外,R中也有很多数据描述性统计的函数,可以同时给出包括偏度、峰度等的数据分布信息,读者可以进行尝试。

