阅读笔记五(图解统计学真是轻松愉快酣畅淋漓)

我们在前文中说过,统计学大致分为“描述统计学”和“推断统计学”
,双误差率合为5%,这就是“双向检验”了。是采用双向检验还是单向检验,在判断上会有截然不同的差异出现(
面对重要的判断,一定要事先想好这条“严格的误差线”,拒绝暧昧和模棱两可。
总结
权衡是一个调节问题,这里不存在任何正确答案。
有什么能把负数变为正数的好方法吗?
说到把负数变为正数的方法,可以想到的有“平方法”。比如:
(3-5)= -2,平方就是(3-5)2
=(-2)2
= 4。
不喜欢“方差”,可以用“标准差”?


专栏 还有许多其他的连续量?
只要是正态分布的例子,就算没有详细的实际数据也可以借助平均数+标准差画出正态分布图来!


表示健康程度的BMI指数
我的体重是65kg,身高170cm,所以BMI指数是65÷(1.7×1.7)=22.49。原来这个指数也是凯特勒想出来的啊。

死亡与统计
・平均数越小,分布曲线越往“左”。 像下图这样。
・平均数越大,分布曲线越往“右”。(太简单不想贴图)
平均数的大小决定正态分布曲线的左右位置,标准差的大小决定正态分布曲线的缓急变化。
平均数-1×标准差≤68.3%≤平均数+1×标准差
②平均数-2×标准差≤95.5%≤平均数+2×标准差
③平均数-3×标准差≤99.7%≤平均数+3×标准差

说的就是这个道理。因为一般考试的满分都是100分,所以偏差值把50分定为“中间分”,也就是刚才公式里的“+50”。如何计算偏差值,简单来说有以下三步:
① 先用自己的得分减去平均分,然后除以标准差;
② 乘以 10;
③ 加上 50。
于是,68.3%的考生的道理。因为一般考试的满分都是100分,所以偏差值把50分定为“中间分”,也就是刚才公式里的“+50”。如何计算偏差值,简单来说有以下三步:
① 先用自己的得分减去平均分,然后除以标准差;
② 乘以 10;
③ 加上 50。
于是,68.3%的考生的偏差值在40~60范围内,95.5%的考生的偏差值在30~70之间(2个标准差)
在1万名考生中,15.85%的人在上游,那么这名考生的排名是不是大概就在10000×0.1585=1585名左右呢。
,其中一个学生的偏差值是60,你们想想,他的排名大概是多少呢?
:咦?还可以算出来吗?我只知道40~60之间大概有68.3%的人。
s


统计学分为描述统计学和推断统计学。
描述统计学以全数调查为基本。
推断统计学采用抽样调查,抽取的样本需具有“整体的缩影”的特性。
盖洛普抽样失败?
原因就在调查方的“调查员”身上。也就是说,虽然对调查对象进行了适当的阶层分配,但是,调查员通常会避开那些跟自己关系不太好的人,会更倾向于选择友好且易于交谈的人来做调查。
RDD由电脑随机选号,组合出一个电话号码,然后致电对方进行调查。
:质检管理图上的UCL和LCL是什么意思啊?
是“控制线”的意思。UCL是“upper controllimit”的缩写,代表上控制线。
:那下面的LCL是不是就是“low controllimit”的缩写,代表下控制线呢?从命名来看,高于UCL线或低于LCL线似乎都是不好的。


表示相关性强弱的相关系数是“-1~+1”区间的数值。
0.4<不完全正相关≦0.7
0.2<弱正相关 ≦ 0.4
-0.2≦不相关 ≦ 0.2
-0.4≦弱负相关 <-0.2
-0.7≦不完全负相关<-0.4
-1.0≦完全负相关<-0.7

有因果关系必有相关性,有相关性未必有因果关系。
有相关性但没有因果关系的事例非常多,不要被没有因果关系的“疑似相关”蒙骗了!
:统计学是从庞大的事实案例出发,推论这些事件之间是否存在共同的成因。也就是从个别事例推导普遍概念。这种方法被称为归纳法。
:这个叫归纳法啊。那针对这个归纳法,
回归直线:在实际操作中,因为还会考虑用正残差的平方和负残差的平方相加求得“最小”值(最小平方),所以会比较花工夫。
:是的。首先是数据的位置,把身高输入到B3~B7单元格中,体重输入到C3~C7单元格中。相关系数使用“correl”,范围分别是B3~B7和C3~C7。所以用“=correl(B3:B7,C3:C7)”就可以了。
:好厉害,这么容易就能算出相关系数是0.9923。那下一步该怎么办呢?
结果就是,首次考试中取得高分的人在他们的第二次考试中的得分往往会更接近自己的历次考试的平均分。
多元回归分析表示多个因素与结果的关系。
但是,3个以上因素的分析图就无法画出来了。
多元回归分析不仅要考虑“多个因素”,还要考虑“加权”
确实,3个人是太少了。不过类似这种集中在某一个点上,能快速算出7小时10分钟的,用于估计总体参数的样本统计量就是“点估计”根据样本推断总体的方法有两种,即点估计和区间估计。


收视率约为3%,有大逆转的可能吗?
大和进行了Excel计算。输入的是:
节目A …… p=0.18、n=900
在收视率等类似调查判断中,应加入2%左右的误差率。
节目B …… p=0.21、n=900
答案出来了。根据已发布的节目A的18%的收视率、节目B的21%的收视率,算出它们各自95%的误差范围是:
15.5%≤ 节目A的收视率≤20.5%
18.3%≤ 节目B的收视率≤23.7%