基于JMP的分类资料组间比较的卡方检验

在前几期的文章中,我们分别介绍了t检验、方差分析等用于组间均值比较的方法。今天的文章,我们来主要介绍一下常用于组间率或比例比较的方法——卡方检验。

为了帮助更多的临床医师学习如何运用JMP高效地开展数据分析,提高日常工作和发表论文的效率,2020年8月起,JMP资深用户、JMP特约专栏作者、资深统计学家冯国双博士及其团队将在JMP数据分析平台为大家分享一系列统计及数据分析、JMP实战操作、JMP分析报表解读等干货内容,每期一个经典话题,帮助大家掌握一个新技能。值得注意的是,这些话题并非仅针对临床医师,对所有运用JMP软件开展数据分析的小伙伴都适用。本文为此系列文章的第15期。
大家一定要明确:
卡方检验尽管可以用于两组或多组分类资料的比较,但仅用于结局为二分类或无序多分类的变量;
如果结局是等级资料,通常不用卡方检验,而是用秩和检验,这一部分我们将会在下一篇文章中为大家进行详细讲解。
此外还要强调一点,卡方检验虽然可以用于组间的率或比例的比较,但并不是说卡方检验只能用于率或比例的比较。卡方检验还经常用于拟合优度检验,比较实际值与理论值(或预测值)的差异,所以常用于检验某一样本是否满足特定分布、某一模型的预测效果好不好等等。
本文要介绍的是卡方检验用于组间比较的用途。
首先对实际中常见的几种情形进行一下总结:
两组或多组率的比较,即结局是二分类变量(如死亡和存活、阴性和阳性等),这种情况下,直接用卡方检验即可。
两组或多组比例的比较,通常结局是无序多分类变量(如疾病的亚型等),这种情况下,也可以直接用卡方检验。
如果样本数太少(一般认为小于40就算太少),通常组间率或比例的比较不直接用卡方检验,而是建议用Fisher确切检验。
多组率或比例的比较,如果有统计学差异,还想进一步作两两比较的话,常用Bonferroni法校正检验水准。如A、B、C三组进行两两比较,共需比较3次,则可分别对A和B、A和C、B和C执行卡方检验,但是检验水准不是0.05,而是0.05/3=0.0167,即三次比较以P<0.0167认为有统计学差异。
多组率的比较,如果分组变量有等级顺序,还可以考虑进行趋势卡方检验,观察率是否随着分组等级的增加而增加。
如果是配对设计,需要考虑配对卡方检验,这时的结果结论与普通的卡方检验不同。
01 两组率的比较
我们将使用图1所示的OSAS数据进行讲解。图1数据中,拟比较肥胖人群和正常人群的OSAS发生率是否有差异。分组指标和结局指标均为分类变量,因此采用卡方检验。

选择JMP菜单“分析→以X拟合Y“(图2),进入组间比较的界面。本例中肥胖为分组,OSAS为结果,所以在对话框中将“肥胖”放入“X,因子”,“OSAS”放入“Y,响应”(图3)。


JMP软件自动输出的结果包括三部分结果:马赛克图、列联表和卡方检验结果。
我们来一一解读这些结果。
@Part.1 马赛克图
第一部分是马赛克图(图4),通过图形直观呈现各组人群的占比,横纵坐标总长度均代表100%。图4中横轴代表是否肥胖,纵轴代表是否发生OSAS,右侧图例可知红色代表发生OSAS,蓝色代表不发生OSAS(正常)。
从该图的横坐标可以看出:体重正常组的人数更多,约为肥胖组的二倍。
从纵坐标可以看出:肥胖者发生OSAS的比例更高(肥胖组比正常组的红色区域高),但该差异是否有统计学意义,还需参考卡方检验的结果进行判断。

@Part.2 列联表
第二部分是列联表,列联表中每个格子有4行数据,表格左上方的表头给出了这4行数据的含义,它们分别为计数、合计百分比、列百分比和行百分比。

@Part.3 卡方检验统计分析结果
第三部分为卡方检验统计分析结果,结果包括似然比卡方、Pearson卡方和Fisher确切检验三个部分(图6)。实际中通常用Pearson卡方检验结果,但如果例数小于40或有理论频数小于5甚至小于1,一般建议选择Fisher确切检验结果。

本例样本数较多,一般选择Pearson卡方即可。当然为了严谨起见,我们仍看一下理论频数情况。点击列联表旁边的红色三角形按钮,在下拉菜单中选择期望值(图7),即可得到每个格子的理论频数,即图8中箭头所示位置。


可以看出,所有格子的理论频数均大于5,因此选择Pearson卡方结果即可,结果表明肥胖与正常人群的OSAS发生率有统计学差异(Pearson=5.970,P=0.0146)(图6)。

02 多组率的比较
我们将继续基于图1所示的OSAS数据进行讲解,在图1数据中,拟比较扁桃体大小不同的患者的OSAS发生率是否有差异。
本例中结局指标为OSAS,属于二分类变量;分组指标为扁桃体大小,分为<2,=2和>2三类,属于多分类变量。
首先进行卡方检验,操作同上,结果见图9。

图9中的列联表显示,研究例数>40且所有格子的理论频数(期望值)均大于5,因此选择Pearson结果,扁桃体大小不同的患者OSAS发生率的差异有统计学意义(Pearson=6.305,P=0.0428)。
上述结果只是表明三组之间的OSAS发生率有统计学差异,但具体是哪两组之间存在差异,还需进一步进行组间两两比较。
对于分类资料,JMP程序无法直接给出两两比较结果,需要采用Bonferroni法对检验水准进行校正。然后对其中的任意两组进行卡方检验,与校正后的检验水准进行比较。
本例总计进行3次两两比较,则校正后的检验水准为:

图片
也就是说,两两比较时,P值小于0.0167才算差异有统计学意义。两两比较比较的结果如表1所示。结果表明,小于2 vs 大于2的P值小于0.0167,具有统计学意义,其余组无统计学意义。
表1 两两比较结果

综上,统计分析显示肥胖人群和正常人群的OSAS发生率有统计学差异,扁桃体大小小于2和大于2的人群的OSAS发生率有统计学差异,其余组间差异无统计学意义。
03 两组或多组比例的比较
两组/多组比例的比较,其思路和JMP软件实现过程,完全与两组/多组率的比较一致。只是解释不同,组间的比例如果有统计学差异,说明组间的分布不同。同样,如果多组间比例的比较有统计学差异,也可以执行两两比较,思路与多组率的两两比较相同。
以上就是今天的分享。在此系列的下篇文章中,我们将介绍卡方检验的延伸—等级资料秩和检验、趋势卡方和配对卡方检验。想要在JMP中亲自动手试试看的话,可下载最新的JMP 16免费试用:https://www.jmp.com/zh_cn/download-jmp-free-trial.html?utm_campaign=td7013Z000002DxWTQA0&utm_source=bilibili&utm_medium=social