统计
基本统计方法
第一章 概论
1、总体:根据研究目的确定的同质对象的全体(集合)
样本:从总体中随机抽取的部分具有代表性的研究对象。
2、参数:反映总体特征的统计指标,如总体均数、标准差等,用希腊字母表示,是固定的常数
统计量:反映样本特征的统计指标,如样本均数、标准差等,采用拉丁字字母表示,是在参数附近波动的随机变量
3. 统计资料分类:
定量资料——能够用数值大小衡量其水水平高低,一般有计量单位
定性资料——互不相容的类别或属性
有序资料——等级资料,各类别之间有程度或顺序上的差别
第二章 计量资料统计描述
1、集中趋势:均数、中位数、众数
2、离散趋势:极差、四分位间距、标准差(或方差)、变异系数(CV)
3、正态分布特征:
①X轴上方关于X=μ对称的钟形曲线;
②X=μ时,f(x)取得最大值;
③有两个参数,位置参数μ和形态参数σ;
④曲线下面积为1,区间μ±σ的面积为68.27%,区间μ±1.96σ的面积为 95.00%,区间μ±2.58σ的面积为99.00%。
4、医学参考值范围的制定方法:正态近似法;百分位数法:P2.5 —P97.5
第三章 总体均数估计和假设检验
1、抽样误差(Sampling Error):由个体变异产生、随机抽样造成的样本统计量与总体参数的差异。抽样误差不可避免,产生的根本原因是生物个体的变异性。
2、均数的标准误(Standard error of Mean, SEM):样本均数的标准差,反映样
本均数间的离散程度,说明抽样误差的大小。
3、降低抽样误差的途径有:①通过增加样本含量n;②通过设计减少S。
4、t分布(区间估计)特征:
①单峰分布,以0为中心,左右对称;
②形态取决于自由度ν,ν越小,t值越分散,t分布的峰部越矮而尾部翘得越高;
③当ν逼近∞,t分布逼近u分布,故标准正态分布是t分布的特例.
5、置信区间(Confidence Interval,CI):按预先给定的概率(1-α)确定的包含总体参数的一个范围。95%CI含义:从固定样本含量的已知总体中进行重复抽样试验,根据每个样本可得到一个置信区间,则平均有95%的置信区间包含了总体参数。
6、假设检验的基本原理:小概率反证法的思想。
①反证法:从问题的对立面(H0)出发间接判断要解决的问题(H1)是否成立
②小概率事件:在H0成立的条件下计算检验统计量,根据概率分布确定检验水准下P值大小,判断是否为小概率事件(通常P≤α视为小概率事件,α通常取0.05), 是则拒绝H0接受H1;否则尚不能拒绝H0
7、假设检验一般步骤:
①建立假设(反证法,H0和H1),确定检验水准(P≤0.05);
②计算统计量:u、t、F;
③确定概率值P,做出推断结论。
8、t检验需满足的条件:比较的两个样本相互独立、均服从正态分布
9、P的含义:是指从H0规定的总体随机抽样,抽得等于及大于(或/和等于及小于)现有样本获得的检验统计量值的概率。
10、Ⅰ型错误(Type Ⅰ error):拒绝了实际上成立的H0,这类“弃真”的错误称为Ⅰ型错误,I型错误的大小为检验水准α。
II型错误(Type Ⅱ error):接受了实际上不成立的H0,这类“存伪”的错误称为Ⅱ型错误,Ⅱ型错误的大小用β表示,1-β表示检验效能,α越小,β越大,增大样本量可以同时降低α和β
11、置信区间和假设检验的区别和联系:①可以通过判断置信区间是否包含零假设,判断单样本均数是否来自已知的总体;②置信区间不但能回答差别有无统计学意义,还可提示差别有无实际意义;③假设检验可提供置信区间不能提供的信息,如P值和检验效能等。
12、t检验
(1)、单样本t检验——样本均数与已知总体均数的比较。检验样本均数所代表的总体均数是否与已知总体均数有差别。已知总体均数一般为标准值、理论值或经大量观察得到的稳定指标值。
(2)、配对样本均数t检验——非独立两样本均数t检验。适用于配对设计计量资料均数的比较。检验两相关样本均数所代表的未知总体均数是否有差别。
(3)、两独立样本均数t检验——适用于完全随机设计的两样本均数的比较。检验两样本所来自总体的均数是否相等。
13、配对设计
(1)、同源配对:同一受试对象或同一标本的两个部分,随机分配接受两种不同处理
(2)、异源配对:为消除混杂因素的影响,将两个同质受试对象配对分别接受两种处理,如把同性别、年龄相近及病情相同的病人配成一对
14、完全随机设计:将受试对象随机地分配到两组中,每组对象分别接受不同地处理,分析比较两组的处理效应
15、方差齐性检验——F检验,若F≥Fα/2,(ν1,ν2),则P≤α,拒绝H0,接受H1,可以认为两总体方差不齐;反之认为两总体方差具有齐性
16、方差不齐时两样本均数的t’检验——Sattwehwaite法、Cochran&Cox法
第四章 方差分析
1、方差分析的基本思想:根据研究目的和设计类型,把所有测量值的总变异按照处理因素和水平等分解成两部分(组内变异和组间变异)或更多部分,同时把对自由度相应进行分解,再进行比较,评价由处理因素引起的变异是否具有统计学意义。
2、方差分析的应用条件:多YU两组的样本均数的比较,各样本是相互独立的随机样本,均来自正态分布的总体,各样本的总体方差相等(具有方差齐性)。
3、方差分析表

4、随机区组设计——先将受试对象按条件相同或相近组成m个区组,每个区组有k个受试对象,再将其随机地分到k个处理组中
5、多个样本均数间的多重比较:①LSD-t 检验,即最小显著差异t检验,适用于一对或几对在专业上有特殊意义的样本均数间的比较;②Dunnett—t检验:适用于多个实验组与一个对照组均数差别的多重比较;③SNK-q检验:适用于多个样本均数两两之间的全面比较。
6、多组数据的方差齐性检验——Bartlrtt检验、Levene检验
第五章 计数资料的统计描述
1、相对数的类型:强度相对数(率,如死亡率、发病率等);结构相对数(构成比);相对比(如性别比等)
2、应用相对数的注意事项:①结构相对数不能代替强度相对数:②计算相对数应有足够的数量;③正确计算合计率;④注意资料的可比性;⑤对比不同时期资料应注意客观条件是否相同;⑥样本率(或构成比)的抽样误差。
3、标准化率(Standardization rate):采用标准化法进行计算,消除数据内部构成的差异,使标化后的合计率具有可比性, 这种经过标化后的合计率称为标准化率。
4、标准化率的注意事项:①只适用于内部构成不同,影响总率的可比性的问题; ②选择的标准不同,计算得到的标准化率也不同;多个标准化率比较时。应选同一标准;③标准化率已经不再反映当地的实际水平:④样本标准化率是样本值, 存在抽样误差。比较两样本标准化率,当样本量较小时,需做假设检验。
第六章 几种离散型变量的分布及应用
1、二项分布X~B(n,π)的适用条件:①每次试验只发生两种对立的可能结果之一;②每次试验产生某结果的概率π固定不变;③重复试验是相互独立的
2、二项分布的正态近似条件:np和n(1—p)均大于5
3、泊松分布X~P(λ)的性质:①总体均数λ和总体方差σ2相等;②当n很大,π很小,且np=λ为常数时,二项分布近似泊松分布;③λ≥20 时,泊松分布近似正态分布;④泊松分布具备可加性.
第七章 χ2检验
1、χ2检验的基本思想:根据χ2分布特征, 通过比较实际频数与理论频数的差异,确定在H0成立的条件下该差异由抽样误差造成是否为小概率事件,进而判断差异是否具有统计学意义。χ2值反映了实际频数与理论频数的吻合程度。
χ2检验主要目的是推断两个或多个总体率构成比之间有无差别
2、R×C 列联表中的各格子T≥1,并且1≤T<5的格子数不宜超过1/5格子总数,否则可能产生偏差。处理方法有三种:①增加样本量,使理论频数增大;②根据专业知识,删除或合并行列;③采用Fisher确切概率法分析(n<40或T<1)
3、有序分组资料表线性趋势检验:
①双向无序的R×C列联表:多个样本率的比较采用R×C列联表的χ2检验;两个分类变量的关联性分析则采用R×C列联表的χ2检验和Pearson列联系数进行分析
②单向有序的R×C列联表:行有序而列无序,采用R×C列联表的χ2检验;行无序而列有序,采用 Wilcoxon 秩和检验
③双向有序属性相同的R×C列联表:配对四格表的扩展,采用一致性检验(Kappa 检验)
④双向有序属性不同的R×C列联表:样本率的比较采用Wilcoxon秩和检验;相关性分析采用Spearman相关分析;线性变化趋势分析采用有序分组资料的线性趋势检验或CMHχ2检验等
第八章 非参数秩和检验
1、秩和检验的适用范围:①总体分布偏态的计量资料;②数据两端有不确定值;③等级资料;④各组离散程度相差悬殊,总体方差不齐的资料。
2、非参数检验对总体分布的形状差别不敏感,只对总体分布位置差别敏感;非参数检验没有充分利用资料信息,较参数检验的检验效低.故能用参数检验尽量采用参数检验,不满足参数检验条件才使用非参数检验
3、不同数据类型的统计分析路径:
(1)、样本均数与总体均数的比较:①正态,样本均数与总体均数的t检验;②非正态,Wilcoxon 符号秩检验
(2)、两样本均数比较:①独立正态:两独立样本t检验;②独立非正态:两独立样本的 Wilcoxon秩和检验;③配对设计差值正态,配对t检验;④配对设计差值非正态,Wilcoxon 符号秩检验
(3)、多样本均数比较:①独立正态(方差齐),方差分析;②独立非正态 Kruskal—Wails H检验;③非独立正态,重复测量资料的方差分析;④非独立非正态,Friedman M检验
第九章 双变量回归和相关
1、直线回归应满足的条件:自变量与因变量呈线性关系、观察值之间相互独立、因变量Y随机正态、对任何X因变量Y的标准差相等。直线回归方程的一般形式为:Y=a+bX,a为截距,b为回归系数,回归系数的估计采用最小二乘法原则(Least Squares Method)进行估计。
2、决定系数(coefficient of determination):回归平方和与总平方和的比值,R2 =SS回/SS总。R2取值0~1之间无单位,其数值大小反映回归贡献的相对程度, 即总变异中回归模型能够解释的百分比。
3、秩相关的应用适用范围:
(1)不服从双变量正态分布而不宜作Pearson相关分析;
(2)总体分布型未知;
(3)等级资料的相关分析。
4、相关与回归的区别与联系区别
(1)区别:
①资料:回归分析资料要求 Y为正态随机变量, X为选定变量;相关分析资料 X、 Y服从双变量正态分布。
②应用:回归分析是由一个变量值推算另一个变量值(依存关系);相关分析只反映两个变量间的相互关系.
③回归系数b与原度量单位有关,而相关系数r无关。b的绝对值越大,回归直线越陡,即X变化1个单位时 Y的平均变化越大;r的绝对值越大,所有点越趋近于一条直线,两变量的关系越密切,相关度越高.
(2)联系:
① r 与 b 值可相互换算
② r 与 b 正负号一致;
③ r 与 b 的假设检验等价:对于同一资料,检验完全等价;
④ 回归可解释相关。相关系数的平方r2(决定系数)是回归平方和与总的离均差平方和之比(SS回 /SS总)。
5、应用直线回归时的注意事项
(1)作回归分析要有实际意,不能把毫无关联的两种现象作回归分析,必须对两种现象间的内在联系有所认识。
(2)在进行直线回归分析之前,应绘制散点图,观察点的分布有直线趋势时, 才适宜作直线回归分析, 散点图还能提示资料有无异常点.异常点的存在往往对方程中的系数(a、b)的估计产生较大影响。因此,需对异常点进行复查。
(3)建立直线回归方程后,要对系数进行假设检验,以确定回归方程有无意义。
(4)直线回归方程的适用范围一般以自变量的取值范围为限,避免外延。获得自变量值的手段也应与建立方程时相同.否则会产生较大偏差。
第十章 统计表和统计图
1. 统计表的基本要求
(1)标题:概括表的主要内容(时间、地点、研究内容等),放在表的上方。表编号与标题间间隔一个汉字距离;如整个表指标统一,还应将指标的单位标在标题后面。
(2)标目:分别用横标目和纵标目说明每行和每列内容或数字的意义,标明指标的单位.通常描述的对象为横标目,内容(指标)为纵标目,从左向右读可以构成完整的一句话.
(3)线条:至少用 3 条线:顶线、底线和纵标目。顶线和底线将表格与文章其他部分分隔开,纵标目线将标目的文字区与表格的数字区隔,还可用横线将合计和两重纵标目隔开,其他竖线和斜线一概省去。顶线和底线线条粗细一般为1.5磅, 其他线条一般为0.5磅。
(4)数字:用阿拉伯数字表示,无数字用“-”表示,缺失数字用“…"表示,数值为0者记为“0”不留空项。数字按小数点位数对齐,同一指标最好保留相同位数的小数位数。
(5)备注:表中数字区不要插入文字,必须说明者表“*”,在表下方以备注的形式说明。