欢迎光临散文网 会员登陆 & 注册

【统计不疯狂】参数估计的一些小知识

2023-04-18 02:08 作者:薛西弗斯和他的猫  | 我要投稿

当我们谈到统计学时,总是离不开两大块内容。一是统计描述,二是统计推断。

其中经常把研究生折磨得欲仙欲死的主要是统计推断。统计推断又包括两个部分,一是参数估计,二是假设检验。今天我们主要学习的内容是参数估计,也就是你常常在文献中看见的95% CI,95%置信区间。

一、基本概念

在开始学习参数估计前,我们要首先了解几个基本概念,这些概念要烂熟于心。 作为一名医学类研究生,我个人的经验是有些概念的数学内涵你可以不用深究,但是你要知道在什么场景下使用他,知其然不用知其所以然。

①统计量与参数:统计量是指来自样本的度量数据,是一个变量。参数是来自总体的度量数据,是一个常数。简单来说就是看见样本就要想到统计量,看见总体就记住是参数。统计学的基本任务就是利用样本去推断总体,也就是利用统计量去估计参数。

②抽样误差:是指统计量与总体参数之间的差异,或者是样本统计量之间的差异。要记住,总体参数是一个未知的常量,而统计量是一个已知的变量。每一次抽样都会得到一个不同统计量,这就叫做变异

③标准误standard error:实际上标准误的数学含义就是标准差,反映数据的离散程度。唯一不同的是,标准误特指多次抽样的样本统计量的标准差。它反映的是样本均值的离散程度,即样本均值对总体均值的代表性。如果上面的概念实在记不住,那有句话一定要记住——标准误反映的是抽样误差的大小

④t分布:一句话,t分布就是小样本的正态分布。这句话可能有些偏颇,但是这样记忆很好用。t分布实际上就是一种低配版的正态分布。在总体标准差未知且样本量<30时,需要用t界值来获取置信区间。

一个经典的正态分布曲线

⑤中心极限定理:对任意分布, 样本含量足够大时(一般是大于30例),样本均数的分布近似于正态分布,样本均数的均数等于原分布的均数。这绝对是统计学中最重要的定理,没有之一(我个人评价哈)。中心极限定理虽然流氓但是非常好用。

二、点估计与区间估计

当上述的知识储备学习完成后,后面的参数估计的内容就非常简单啦,所以朋友们一定要反复体会前面的几个基本内容噢。

(一)点估计

点估计就是直接利用样本量的数值来估计总体参数。这个方法肉眼可见的粗糙,我们略过不讲,基本上不会用到。

(二)区间估计

区间估计是按一定的概率(1-α)用一个区间范围来估计总体,这个范围称作可信度为(1-α)的可信区间或置信区间confidence interval。置信区间CI通常由两个数值即置信限confidence limit,CL构成。

实际上区间估计就是讲样本统计量标准误结合起来,确定一个范围,这个范围就是总体参数的置信区间。主要的计算方法要分为3种情况:

①总体标准差已知:在实际应用中几乎不存在这种情况。

②总体标准差未知,样本量n较小,用t分布法:

t分布法的公式推导

③总体标准差未知,n足够大(>30),用正态近似法

实际上就是用z界值代替上面的t界值。


标准正态分布曲线(z分布)

上述的图表一定要牢记在脑海里,如果实在记不住,也要记住一个数字——1.96,是把握度95%时双侧检验的z界值,可利用这个界值来获取置信区间的上下限。

【统计不疯狂】参数估计的一些小知识的评论 (共 条)

分享到微博请遵守国家法律