【高清】北京大学 医学统计学与 SPSS 软件(基础篇)内含CC字幕 目前最好的

一、基本概念

统计分析:用已知的样本推断未知的总体。(前提:随机抽样)
- 总体 (population)
总体是根据研究目的确定的同质观察单位的全体。
例:
调查某地1992年健康成年男性的身高。(有限总体);
某种药物治疗高血压患者的疗效。(无限总体)
- 样本(sample)
样本是从总体中随机抽取部分观察单位,其实测值的集合。样本量比较大时,可用频率近似为概率。
随机抽样……减少偏性,使样本对总体有代表性
- 概率(probability)
概率是描述随机事件发生的可能性大小,用P表示。
小概率事件:
当一个事件的概率P≤0.05或P≤0.01时,称为小概率事件。特点:某事件发生的可能性很小,在一次试验中基本上是不会发生的。
- 资料:数值变量、分类变量
(1)数值变量 (Numerical Variable )
又称为定量资料或计量资料,其变量值是定量的,表现为数值大小,一般有度量衡单位。血压,身高,体重,血脂等。
(2)分类变量 (Categorical Variable)
又称为定性资料,其变量值是定性的,表现为
互不相容的类别或属性。性别



重点!!!!

- 误差

- 统计工作

二、统计描述
数值变量分布类型(对称分布、偏态分布)
- 对称分布

正态分布:




任何正态分布经过标准化变换,都能转化成唯一的一条标准正态分布。
- 偏态分布

数值变量统计描述
- 集中趋势的描述

2. 中位数(median, M)
将一组观察值从小到大排列,位置居中的观察值。
对于偏态分布资料,中位数只和位置居中的观察值有关,适合描述偏态分布的集中趋势。
- 离散趋势的描述


n-1是少了一个自由度

在医学科研论文里边,标准差要比方养更常用,因为可与均值比较,使用方便。

因为不受两端极端数据的影响,所以四分位数间距是比较稳定的,主要适用于偏态分布资料。

补充:


分类变量统计描述
- 相对数:
比 ratio:相对比,性别比、BMI、OR、RR
比例 proportion:事物内部各部分所占的比重(构成比),各部分相加等于1,患病率、病死率、有效率、治愈率
率 rate :单位时间内某事件发生的频率,分子为观察期间内某事件的发生例数,分母为观察人一时(Person-Time)总数,即(每个观察单位×观察时间)的总和。发病率
- 患病率 VS 发病率
患病率 (Prevalence):比例,不是率
表示在某时点上接受检查的人群中现患病例所占的比例。
发病密度 (Incidence Density, ID):
观察期间内某疾病新发病例数/该观察期问内人—时总数。实际应用中也可称为发病率 (Incidence Rate)。
三、两组数值变量比较的假设检验
- 均数的抽样误差
1. 定义
在抽样研究中,由于抽样造成的样本均数与总体均数之问的差异或者样本均数之问的差异,称为均数的抽样误差(Samp ling Error, SE) 。

标准误,也可称为样本均数的标准差,主要与样本含量有关,增大样本含量可减少抽样误差。
- t分布


2.性质

- 总体均数95%置信区间的估计
1. 定义
根据样本均数计算出有(1-a)的把握包含总体均数的一个数值范围,这个数值范围称为总体均数的置信区间,该(1-a)称为置信度。一般a取0.05,则置信度为95%,即估计总体均数95%置信区间。
2.计算

t界值是自由度为u的双侧t界值
注:置信区间的估计是有概率性的。(如果要求95%的置信区间,得到的区间它计算正确的概率只有95%)
- 假设检验的基本原理