【统计不疯狂】参数估计的一些小知识
当我们谈到统计学时,总是离不开两大块内容。一是统计描述,二是统计推断。
其中经常把研究生折磨得欲仙欲死的主要是统计推断。统计推断又包括两个部分,一是参数估计,二是假设检验。今天我们主要学习的内容是参数估计,也就是你常常在文献中看见的95% CI,95%置信区间。
一、基本概念
在开始学习参数估计前,我们要首先了解几个基本概念,这些概念要烂熟于心。 作为一名医学类研究生,我个人的经验是有些概念的数学内涵你可以不用深究,但是你要知道在什么场景下使用他,知其然不用知其所以然。
①统计量与参数:统计量是指来自样本的度量数据,是一个变量。参数是来自总体的度量数据,是一个常数。简单来说就是看见样本就要想到统计量,看见总体就记住是参数。统计学的基本任务就是利用样本去推断总体,也就是利用统计量去估计参数。
②抽样误差:是指统计量与总体参数之间的差异,或者是样本统计量之间的差异。要记住,总体参数是一个未知的常量,而统计量是一个已知的变量。每一次抽样都会得到一个不同统计量,这就叫做变异。
③标准误standard error:实际上标准误的数学含义就是标准差,反映数据的离散程度。唯一不同的是,标准误特指多次抽样的样本统计量的标准差。它反映的是样本均值的离散程度,即样本均值对总体均值的代表性。如果上面的概念实在记不住,那有句话一定要记住——标准误反映的是抽样误差的大小。
④t分布:一句话,t分布就是小样本的正态分布。这句话可能有些偏颇,但是这样记忆很好用。t分布实际上就是一种低配版的正态分布。在总体标准差未知且样本量<30时,需要用t界值来获取置信区间。

⑤中心极限定理:对任意分布, 样本含量足够大时(一般是大于30例),样本均数的分布近似于正态分布,样本均数的均数等于原分布的均数。这绝对是统计学中最重要的定理,没有之一(我个人评价哈)。中心极限定理虽然流氓但是非常好用。
二、点估计与区间估计
当上述的知识储备学习完成后,后面的参数估计的内容就非常简单啦,所以朋友们一定要反复体会前面的几个基本内容噢。
(一)点估计
点估计就是直接利用样本量的数值来估计总体参数。这个方法肉眼可见的粗糙,我们略过不讲,基本上不会用到。
(二)区间估计
区间估计是按一定的概率(1-α)用一个区间范围来估计总体,这个范围称作可信度为(1-α)的可信区间或置信区间confidence interval。置信区间CI通常由两个数值即置信限confidence limit,CL构成。
实际上区间估计就是讲样本统计量与标准误结合起来,确定一个范围,这个范围就是总体参数的置信区间。主要的计算方法要分为3种情况:
①总体标准差已知:在实际应用中几乎不存在这种情况。
②总体标准差未知,样本量n较小,用t分布法:

③总体标准差未知,n足够大(>30),用正态近似法
实际上就是用z界值代替上面的t界值。

上述的图表一定要牢记在脑海里,如果实在记不住,也要记住一个数字——1.96,是把握度95%时双侧检验的z界值,可利用这个界值来获取置信区间的上下限。