欢迎光临散文网 会员登陆 & 注册

基于JMP的分类资料组间比较的卡方检验

2021-10-12 15:16 作者:JMP数据分析  | 我要投稿

在前几期的文章中,我们分别介绍了t检验、方差分析等用于组间均值比较的方法。今天的文章,我们来主要介绍一下常用于组间率或比例比较的方法——卡方检验。

为了帮助更多的临床医师学习如何运用JMP高效地开展数据分析,提高日常工作和发表论文的效率,2020年8月起,JMP资深用户、JMP特约专栏作者、资深统计学家冯国双博士及其团队将在JMP数据分析平台为大家分享一系列统计及数据分析、JMP实战操作、JMP分析报表解读等干货内容,每期一个经典话题,帮助大家掌握一个新技能。值得注意的是,这些话题并非仅针对临床医师,对所有运用JMP软件开展数据分析的小伙伴都适用。本文为此系列文章的第15期。


大家一定要明确:

  • 卡方检验尽管可以用于两组或多组分类资料的比较,但仅用于结局为二分类或无序多分类的变量;

  • 如果结局是等级资料,通常不用卡方检验,而是用秩和检验,这一部分我们将会在下一篇文章中为大家进行详细讲解。

  • 此外还要强调一点,卡方检验虽然可以用于组间的率或比例的比较,但并不是说卡方检验只能用于率或比例的比较。卡方检验还经常用于拟合优度检验,比较实际值与理论值(或预测值)的差异,所以常用于检验某一样本是否满足特定分布、某一模型的预测效果好不好等等。

本文要介绍的是卡方检验用于组间比较的用途。

首先对实际中常见的几种情形进行一下总结:

  • 两组或多组率的比较,即结局是二分类变量(如死亡和存活、阴性和阳性等),这种情况下,直接用卡方检验即可。

  • 两组或多组比例的比较,通常结局是无序多分类变量(如疾病的亚型等),这种情况下,也可以直接用卡方检验。

  • 如果样本数太少(一般认为小于40就算太少),通常组间率或比例的比较不直接用卡方检验,而是建议用Fisher确切检验。

  • 多组率或比例的比较,如果有统计学差异,还想进一步作两两比较的话,常用Bonferroni法校正检验水准。如A、B、C三组进行两两比较,共需比较3次,则可分别对A和B、A和C、B和C执行卡方检验,但是检验水准不是0.05,而是0.05/3=0.0167,即三次比较以P<0.0167认为有统计学差异。

  • 多组率的比较,如果分组变量有等级顺序,还可以考虑进行趋势卡方检验,观察率是否随着分组等级的增加而增加。

  • 如果是配对设计,需要考虑配对卡方检验,这时的结果结论与普通的卡方检验不同。


    01  两组率的比较

    我们将使用图1所示的OSAS数据进行讲解。图1数据中,拟比较肥胖人群和正常人群的OSAS发生率是否有差异。分组指标和结局指标均为分类变量,因此采用卡方检验。

    图1 OSAS数据

    选择JMP菜单“分析→以X拟合Y“(图2),进入组间比较的界面。本例中肥胖为分组,OSAS为结果,所以在对话框中将“肥胖”放入“X,因子”,“OSAS”放入“Y,响应”(图3)。

    图2 卡方检验操作——菜单选择


    图3 卡方检验操作——变量选择

    JMP软件自动输出的结果包括三部分结果:马赛克图、列联表和卡方检验结果。

    我们来一一解读这些结果。


    @Part.1  马赛克图

    第一部分是马赛克图(图4),通过图形直观呈现各组人群的占比,横纵坐标总长度均代表100%。图4中横轴代表是否肥胖,纵轴代表是否发生OSAS,右侧图例可知红色代表发生OSAS,蓝色代表不发生OSAS(正常)。

    • 从该图的横坐标可以看出:体重正常组的人数更多,约为肥胖组的二倍。

    • 从纵坐标可以看出:肥胖者发生OSAS的比例更高(肥胖组比正常组的红色区域高),但该差异是否有统计学意义,还需参考卡方检验的结果进行判断。

    图4 卡方检验结果——马赛克图


    @Part.2  列联表

    第二部分是列联表,列联表中每个格子有4行数据,表格左上方的表头给出了这4行数据的含义,它们分别为计数、合计百分比、列百分比和行百分比。

    图5 卡方检验结果——列联表


    @Part.3  卡方检验统计分析结果

    第三部分为卡方检验统计分析结果,结果包括似然比卡方、Pearson卡方和Fisher确切检验三个部分(图6)。实际中通常用Pearson卡方检验结果,但如果例数小于40或有理论频数小于5甚至小于1,一般建议选择Fisher确切检验结果

    图6 卡方检验结果——卡方检验统计分析结果

    本例样本数较多,一般选择Pearson卡方即可。当然为了严谨起见,我们仍看一下理论频数情况。点击列联表旁边的红色三角形按钮,在下拉菜单中选择期望值(图7),即可得到每个格子的理论频数,即图8中箭头所示位置。

    图7 卡方检验操作——输出理论频数


    图8 卡方检验结果——理论频数结果


    可以看出,所有格子的理论频数均大于5,因此选择Pearson卡方结果即可,结果表明肥胖与正常人群的OSAS发生率有统计学差异(Pearson=5.970,P=0.0146)(图6)。

    图6 卡方检验结果——卡方检验统计分析结果



    02  多组率的比较

    我们将继续基于图1所示的OSAS数据进行讲解,在图1数据中,拟比较扁桃体大小不同的患者的OSAS发生率是否有差异。

    本例中结局指标为OSAS,属于二分类变量;分组指标为扁桃体大小,分为<2,=2和>2三类,属于多分类变量。

    首先进行卡方检验,操作同上,结果见图9。

    图9 卡方检验结果


    图9中的列联表显示,研究例数>40且所有格子的理论频数(期望值)均大于5,因此选择Pearson结果,扁桃体大小不同的患者OSAS发生率的差异有统计学意义(Pearson=6.305,P=0.0428)。

    上述结果只是表明三组之间的OSAS发生率有统计学差异,但具体是哪两组之间存在差异,还需进一步进行组间两两比较。

    对于分类资料,JMP程序无法直接给出两两比较结果,需要采用Bonferroni法对检验水准进行校正。然后对其中的任意两组进行卡方检验,与校正后的检验水准进行比较。

    本例总计进行3次两两比较,则校正后的检验水准为:

    图片


    也就是说,两两比较时,P值小于0.0167才算差异有统计学意义。两两比较比较的结果如表1所示。结果表明,小于2 vs 大于2的P值小于0.0167,具有统计学意义,其余组无统计学意义。

    表1 两两比较结果

    综上,统计分析显示肥胖人群和正常人群的OSAS发生率有统计学差异,扁桃体大小小于2和大于2的人群的OSAS发生率有统计学差异,其余组间差异无统计学意义。



    03  两组或多组比例的比较

    两组/多组比例的比较,其思路和JMP软件实现过程,完全与两组/多组率的比较一致。只是解释不同,组间的比例如果有统计学差异,说明组间的分布不同。同样,如果多组间比例的比较有统计学差异,也可以执行两两比较,思路与多组率的两两比较相同。

    以上就是今天的分享。在此系列的下篇文章中,我们将介绍卡方检验的延伸—等级资料秩和检验、趋势卡方和配对卡方检验。想要在JMP中亲自动手试试看的话,可下载最新的JMP 16免费试用:https://www.jmp.com/zh_cn/download-jmp-free-trial.html?utm_campaign=td7013Z000002DxWTQA0&utm_source=bilibili&utm_medium=social





    基于JMP的分类资料组间比较的卡方检验的评论 (共 条)

    分享到微博请遵守国家法律