欢迎光临散文网 会员登陆 & 注册

已知均值和标准误,做bootstrap统计分析【错题本】

2023-09-06 13:08 作者:米糊炒面呐呐呐  | 我要投稿

bootstrap分析的目的,应该是假定我们当前获得的数据存在随机取样的误差,推测真实值所在的位置后比较真实值和指定值是否有差异——因为我们不知道真实值,所以只能从手头数据得到真实值的概率分布、然后通过比较真实值的概率分布与指定值的包含关系,确定真实值在多大概率上与指定值有差异。 已知n个人两个条件的平均数据x_bar_i和**标准误差sem_i** (i = 1, 2 为条件编号),想通过bootstrap方法判断显著性差异,即针对每个条件、在均值加减标准差的**随机分布**里(这里假定随机数据服从高斯分布),有放回随机取样数次(比如10000),每次都计算两个条件的差值,最后得到两个条件差值的分布,如果分布的95%置信区间(也就是从分布中寻找累积概率在2.5%-97.5%的数据范围)包含零,则两个条件没有差异,如果不包含零,则在p = 5%的犯错概率上有显著差异。 遇到了一个问题:这个**随机分布**的标准差,应该取sem_i还是n个人得到的标准差sd_i = sem_i*(n)^2呢? 错误答案:我一开始想,我们感兴趣的是真实值,真实值的分布宽度(标准差SD_i)可以用样本的分布宽度(sd_i)来估计,所以在做bootstrap随机取样的时候,应该使用样本的分布宽度来替代真实值的分布宽度,所以应该选取sd_i。 然而,这个答案错误的地方是:手头已有n个人的平均数据x_bar时,真实值服从的分布不是N(x_bar,sd_i^2),而是N(x_bar, sem_i^2)。 解释: 这里有SEM(standard error of the mean)的数学推导, en.wikipedia.org/wiki/Standard_error#:~:text=for%20further%20discussion.-,Derivation,and%20some%20simple%20properties%20thereof.

推导结论:从某个正态分布N (mu, sigma^2)取样n个点的话,这n个点的均值x_bar的分布是N (mu, sigma^2/n); SEM是均值x_bar的分布的标准差(standard deviation),也就是sigma/sqrt(n) 所以已知n个人的数据均值为x,SEM为sem的话,x则视为从均值分布中取出的一个点;从x推断均值分布的中心位置应该服从分布N(x, sem^2);所以在做bootstrap的时候,要从N(x, sem_i^2)里头取样。 对应我自己的笔记微博:https://weibo.com/5896214783/Ni1x72nPC

已知均值和标准误,做bootstrap统计分析【错题本】的评论 (共 条)

分享到微博请遵守国家法律