【分类资料分析攻略】从未见过如此详细的讲解!快揣兜!

统计分析方法的选用是与资料类型密切联系的。由于分类资料往往多而杂,同学们在资料的处理中通常会遇到很多问题……
为了让同学们掌握分类资料的统计分析方法,小卫对分类资料的分析方法进行了梳理,一起来看看吧~🌟🌟
● 小卫点睛-知识定位 ●
《卫生统计学》(人卫8版)
第九章 卡方检验
第十章 基于秩的非参数检验
01分类资料是什么?
🍒 分类资料的定义
分类资料又称计数资料,亦称名义变量资料。是将观察单位按某种属性或类别分组计数,分类汇总各组观察单位数后而得到的资料。
其变量值是定性的,表现为互不相容的属性或类别,如试验结果的阳性阴性、家族史的有无等,可分为二分类或多分类。
🍒 等级资料的定义
等级资料又称半定量资料或有序分类变量资料。是将观察单位按某种属性的不同程度分成等级后分组计数,分类汇总各组观察单位数后而得到的资料。
其变量值具有半定量性质,表现为等级大小或属性程度。

02卡方检验是什么?
🍒 卡方检验
卡方检验是以卡方分布为理论依据,用途颇广的假设检验方法。
它在分类资料中的应用,包括推断两个总体率或构成比之间有无差别、多个总体率或构成比之间有无差别、多个样本率间的多重比较、两个分类变量之间有无关联性、多维列联表的分析和频数分布拟合优度的卡方检验。
🍒 卡方检验的基本思想
实质是将对两个或多个总体率(构成比)的比较转化为实际频数与理论频数吻合程度的比较。由于在每一条自由度固定的卡方分布曲线下,各个卡方值与其特定概率P值相对应。
若卡方值所对应的概率小于或等于事先所规定的检测水准,即可说明实际频数和理论频数的吻合程度较差,则拒绝H0,可以认为总体间存在明显的差别。
🍒 卡方检验的应用
● 成组设计四格表资料的卡方检验
实质是将对两个或多个总体率(构成比)的比较转化为实际频数与理论频数吻合程度的比较。由于在每一条自由度固定的卡方分布曲线下,各个卡方值与其特定概率P值相对应。
若卡方值所对应的概率小于或等于事先所规定的检测水准,即可说明实际频数和理论频数的吻合程度较差,则拒绝H0,可以认为总体间存在明显的差别。
✔ 适用于:完全随机设计、两样本、分类资料(两分类)、目的是检验两个样本的总体分布是否相同。
✔ 注意比较:其与两独立样本均数比较t检验的区别及联系。
✔ 计算公式及其应用
a.当n≥40,且所有格子的T均≥5时,选用卡方检验的基本公式如下:

或四格表资料卡方检验的专用公式如下:

b.1≤T<5,而n≥40时,选用卡方检验的校正公式如下:


或改用四格表资料的确切概率法计算;
c.n<40,或T<1时,改用四格表资料的确切概率法。

● 配对设计四格表资料的卡方检验
✔ 适用于:配对设计、分类资料(两分类)、以比较两种处理的效果是否相同为目的。
✔ 注意比较:其与配对设计定量资料的t检验、独立四格表卡方检验的区别。
✔ 计算公式及其应用


将成组设计四格表和配对设计四格表,卡方检验公式汇总如下表:


● R×C列联表的卡方检验
✅ R×C列联表检验的基本原理与前面介绍的2×2列联表检验的基本原理相同。
✅ R×C交叉表一般可以分为双向无序、单向有序与双向有序三大类。
将R×C列联表的分析方法汇总如下表:

✔ 双向无序
即交叉表横、纵标目(组别分类与观察指标)均为无序的分类变量,R×C交叉表大多数数据属于此类,可直接使用卡方检验对总体率或构成比进行分析。双向无序R×C交叉表举例如下:

✔ 单向有序
常见以下两种情况。一种见于组别分类有序而观察指标无序的列联表,如不同年龄段某种疾病发病率比较、不同试剂浓度下某种化学反应类型的构成情况比较等,此时可直接采用R×C交叉表卡方检验。
另一种见于组别分类无序而观察指标有序的交叉表,如不同治疗方式对某种疾病治疗效果(分治愈、有效、恶化、死亡几个等级)的比较。此时,则应采用第十章介绍的非参数检验比较不同治疗方式的疗效差异,卡方检验只能分析多组构成上的不同。

✔ 双向有序
一般分为双向有序属性相同的与双向有序属性不同的交叉表两种。此时,需根据变量属性与研究目的,选择以下几种方法处理:卡方检验、基于秩次的非参数检验、Spearman等级相关、Kappa一致性检验、趋势性检验等。



03了解基于秩的非参数检验
🍒 关于非参数检验
非参数检验对总体分布不作严格假定,又称任意分布检验,它直接对总体分布作假设检验。非参数检验的优点是它不受总体分布的限制,适用范围广。
秩转换的非参数检验,是推断一个总体表达分布位置的中位数M(非参数)和已知、两个或多个总体的分布是否有差别。
🍒 关于秩转换的非参数检验
是先将数值变量资料从小到大,或等级资料从弱到强转换成秩后,再计算检验统计量,其特点是假设检验的结果对总体分布的形状差别不敏感,只对总体分布的位置差别敏感。
🍒 等级资料的处理
对于等级资料,若选行×列表资料的卡方检验,只能推断构成比差别;而选秩转换的非参数检验,可推断等级强度差别。

04两分类变量间的相关性分析
有关率的比较,仅适用于推断两个或多个独立样本的总体概率(或构成比)相同与否。
而实际工作中,研究者有时需了解两个或多个分类变量的关联性及其强度,此时则需采用关联性检验,作为其反面也可称为独立性检验。
👉🏻 通常是先针对交叉分类表进行两种属性独立性的卡方检验,再计算关联系数以描述两个属性之间的关联强度。
分类变量的关联性分析与率(或构成比)的差异性分析,在检验过程和方式上完全一致。
👉🏻 仍需强调的是,这两大类分析在研究目的、设计方案、数据结构与结果解释方面有着本质的区别。
● 关联性分析,主要针对同一随机样本的两个不同属性变量所形成的交叉表,侧重于推断两个不同属性变量之间存在关联性与否;
● 而率(或构成比)的比较,则主要针对两个或多个独立随机样本所形成的交叉表,侧重于推断其分别所代表的总体率(或构成比)之间是否存在差异性,这在应用时尤需注意。
到这里,同学们有没有对分类资料的一些通用分析方法有一个更深的了解呢~如果学习遇到困难,一定要趁热打铁解决掉!👉👉卫灿公卫研习社【传送门 • 流统计算题集训营】火热进行中,进步的你闪闪发光!👍👍