欢迎光临散文网 会员登陆 & 注册

【分类资料分析攻略】从未见过如此详细的讲解!快揣兜!

2023-07-26 11:02 作者:卫灿公卫研习社  | 我要投稿



统计分析方法的选用是与资料类型密切联系的。由于分类资料往往多而杂,同学们在资料的处理中通常会遇到很多问题……

为了让同学们掌握分类资料的统计分析方法,小卫对分类资料的分析方法进行了梳理,一起来看看吧~🌟🌟


● 小卫点睛-知识定位 

《卫生统计学》(人卫8版)

第九章 卡方检验

第十章 基于秩的非参数检验


01分类资料是什么?

🍒 分类资料的定义

分类资料又称计数资料,亦称名义变量资料。是将观察单位按某种属性或类别分组计数,分类汇总各组观察单位数后而得到的资料。

其变量值是定性的,表现为互不相容的属性或类别,如试验结果的阳性阴性、家族史的有无等,可分为二分类或多分类。


🍒 等级资料的定义

等级资料又称半定量资料或有序分类变量资料。是将观察单位按某种属性的不同程度分成等级后分组计数,分类汇总各组观察单位数后而得到的资料。

其变量值具有半定量性质,表现为等级大小或属性程度。


02卡方检验是什么?

🍒 卡方检验

卡方检验是以卡方分布为理论依据,用途颇广的假设检验方法。

它在分类资料中的应用,包括推断两个总体率或构成比之间有无差别、多个总体率或构成比之间有无差别、多个样本率间的多重比较、两个分类变量之间有无关联性、多维列联表的分析和频数分布拟合优度的卡方检验


🍒 卡方检验的基本思想

实质是将对两个或多个总体率(构成比)的比较转化为实际频数与理论频数吻合程度的比较。由于在每一条自由度固定的卡方分布曲线下,各个卡方值与其特定概率P值相对应。

若卡方值所对应的概率小于或等于事先所规定的检测水准,即可说明实际频数和理论频数的吻合程度较差,则拒绝H0,可以认为总体间存在明显的差别。


🍒 卡方检验的应用

● 成组设计四格表资料的卡方检验  

实质是将对两个或多个总体率(构成比)的比较转化为实际频数与理论频数吻合程度的比较。由于在每一条自由度固定的卡方分布曲线下,各个卡方值与其特定概率P值相对应。

若卡方值所对应的概率小于或等于事先所规定的检测水准,即可说明实际频数和理论频数的吻合程度较差,则拒绝H0,可以认为总体间存在明显的差别。

✔ 适用于:完全随机设计、两样本、分类资料(两分类)、目的是检验两个样本的总体分布是否相同。

✔ 注意比较:其与两独立样本均数比较t检验的区别及联系。

✔ 计算公式及其应用

a.当n≥40,且所有格子的T均≥5时,选用卡方检验的基本公式如下:

四格表资料卡方检验的专用公式如下:

b.1≤T<5,而n≥40时,选用卡方检验的校正公式如下:

或改用四格表资料的确切概率法计算;

c.n<40,或T<1时,改用四格表资料的确切概率法。



● 配对设计四格表资料的卡方检验  

✔ 适用于:配对设计、分类资料(两分类)、以比较两种处理的效果是否相同为目的。

✔ 注意比较其与配对设计定量资料的t检验、独立四格表卡方检验的区别。

✔ 计算公式及其应用


将成组设计四格表和配对设计四格表,卡方检验公式汇总如下表:



● R×C列联表的卡方检验  

✅ R×C列联表检验的基本原理与前面介绍的2×2列联表检验的基本原理相同。

✅ R×C交叉表一般可以分为双向无序、单向有序与双向有序三大类。

将R×C列联表的分析方法汇总如下表:

✔ 双向无序

即交叉表横、纵标目(组别分类与观察指标)均为无序的分类变量,R×C交叉表大多数数据属于此类,可直接使用卡方检验对总体率或构成比进行分析。双向无序R×C交叉表举例如下:

✔ 单向有序

常见以下两种情况。一种见于组别分类有序而观察指标无序的列联表,如不同年龄段某种疾病发病率比较、不同试剂浓度下某种化学反应类型的构成情况比较等,此时可直接采用R×C交叉表卡方检验。


另一种见于组别分类无序而观察指标有序的交叉表,如不同治疗方式对某种疾病治疗效果(分治愈、有效、恶化、死亡几个等级)的比较。此时,则应采用第十章介绍的非参数检验比较不同治疗方式的疗效差异,卡方检验只能分析多组构成上的不同。

✔ 双向有序

一般分为双向有序属性相同的与双向有序属性不同的交叉表两种。此时,需根据变量属性与研究目的,选择以下几种方法处理:卡方检验、基于秩次的非参数检验、Spearman等级相关、Kappa一致性检验、趋势性检验等。



03了解基于秩的非参数检验

🍒 关于非参数检验

非参数检验对总体分布不作严格假定,又称任意分布检验,它直接对总体分布作假设检验。非参数检验的优点是它不受总体分布的限制,适用范围广。


秩转换的非参数检验,是推断一个总体表达分布位置的中位数M(非参数)和已知、两个或多个总体的分布是否有差别。


🍒 关于秩转换的非参数检验

是先将数值变量资料从小到大,或等级资料从弱到强转换成秩后,再计算检验统计量,其特点是假设检验的结果对总体分布的形状差别不敏感,只对总体分布的位置差别敏感。


🍒 等级资料的处理

对于等级资料,若选行×列表资料的卡方检验,只能推断构成比差别;选秩转换的非参数检验,可推断等级强度差别。


04两分类变量间的相关性分析

有关率的比较,仅适用于推断两个或多个独立样本的总体概率(或构成比)相同与否。

而实际工作中,研究者有时需了解两个或多个分类变量的关联性及其强度,此时则需采用关联性检验,作为其反面也可称为独立性检验。


👉🏻 通常是先针对交叉分类表进行两种属性独立性的卡方检验,再计算关联系数以描述两个属性之间的关联强度。

分类变量的关联性分析与率(或构成比)的差异性分析,在检验过程和方式上完全一致。


👉🏻 仍需强调的是,这两大类分析在研究目的、设计方案、数据结构与结果解释方面有着本质的区别。

关联性分析,主要针对同一随机样本的两个不同属性变量所形成的交叉表,侧重于推断两个不同属性变量之间存在关联性与否;

● 而率(或构成比)的比较,则主要针对两个或多个独立随机样本所形成的交叉表,侧重于推断其分别所代表的总体率(或构成比)之间是否存在差异性,这在应用时尤需注意。


到这里,同学们有没有对分类资料的一些通用分析方法有一个更深的了解呢~如果学习遇到困难,一定要趁热打铁解决掉!👉👉卫灿公卫研习社【传送门 • 流统计算题集训营】火热进行中,进步的你闪闪发光!👍👍

【分类资料分析攻略】从未见过如此详细的讲解!快揣兜!的评论 (共 条)

分享到微博请遵守国家法律