欢迎光临散文网 会员登陆 & 注册

【统计学学习Ep23】浙江大学《概率论与数理统计》知识点总结P130:直方图和箱线图

2023-04-25 23:33 作者:学酥酥的学习日记本  | 我要投稿
(合计1129字,用时60min——)

样本及抽样分布

& 2 直方图和箱线图

(一)直方图

作法:

  • 这些数据杂乱无章,先要将它们进行整理

  • 这些数据的最小值、最大值分别为a,b

  • 即所有数据落在区间[a,b]上,现取区间[a-1.5,b+1.5]它能覆盖区间[a,b]

  • 将区间[a-1.5,b+1.5]等分为7个小区间,小区间的长度记为△——

    ——△称为组距。

    ——小区间的端点称为组限。

  • 输出落在每个小区间内的数据的频数

  • 算出频率

  • 现在自左至右依次在各个小区间上做出以

    ——这样的图形叫做频率直方图

特点:

  • 这种小矩形的面积就等于数据落在该小区间的频率

    ——当n很大时,频率接近于概率

    ——因而一般来说,每个小区间上的小矩形面积

    ——接近于概率密度曲线之下该小区间之上的曲边梯形的面积。

    ——一般来说,直方图的外廓曲线接近于总体X的概率密度曲线

 

(二)箱线图

定义:设有容量为n的样本观察值

——样本p分位数(0<p<1)记为

——它具有以下的性质:

(1) 至少有np个观察值小于或等于

(2) 至少有n(1-p)个观察值大于或等于

方法:样本p分位数可按以下法则求得。将

按自小到大的次序排列成

① 若np不是整数,则只有一个数据满足定义中的两点要求,这一数据位于大于np的最小整数处,即为位于[np]+1处的数。

② 若np是整数,则


作法:

数据集的箱线图是由箱子和直线组成的图形,它是基于以下5个数的图形概括;最小值Min,第一四分位数Q1,中位数M,第三四分位数Q3和最大值Max,它的做法如下:

(1) 画一水平数轴,在轴上标上Min,Q1,M,Q3,Max。在数轴上方画一上、下侧平行于数轴的矩形箱子,箱子的左右两侧分别位于Q1,Q3的上方,在M点的上方画一条垂直线段。线段位于箱子内部。

(2) 自箱子左侧引一条水平线直至最小值Min;在同一水平高度自箱子右侧引一条水平线直至最大值。这样就将箱线图作好了。箱线图也可以沿垂直数轴来作。自箱线图可以形象地看出数据集以下重要性质。

 中心位置:中位数所在的位置就是数据集的中心。

② 散布程度:全部数据都落在[Min,Max]之内,在区间[Min,Q1],[Q1,M],[M,Q3],[Q3,Max]的数据个数各约占1/4.区间较短时,表示落在该区间的点较集中,反之较为分散。

(3) 关于对称性:若中位数位于箱子的中间位置。则数据分布较为对称。又若Min离M的距离较Max离M的距离大,则表示数据分布向左倾斜,反之表示数据向右倾斜,且能看出分布尾部的长短。

(1)同(1)

(2)计算IQR=Q3-Q1,若一个数据小于Q1-1.5IQR或大于Q3+1.5IQR,则认为它是一个疑似异常值,画出疑似异常值,并以*表示。

(3)自箱子左侧引一水平线段直至数据集中除去疑似异常值后的最小值又自箱子右侧引一水平线直至数据集中除去疑似异常值后的最大值。


【统计学学习Ep23】浙江大学《概率论与数理统计》知识点总结P130:直方图和箱线图的评论 (共 条)

分享到微博请遵守国家法律