欢迎光临散文网 会员登陆 & 注册

【文献基础003】论文图表解读(3)——箱式图

2023-05-11 20:46 作者:天泉正道  | 我要投稿

背景介绍

做科研离不开阅读文献,对科研小白来说,怎么读文献一直是一道难关。很多人刚接触科研时,就会接到“多读文献”的命令,可是导师又不教怎么读,然后就自己闷头读文献,读来读去也没读出个所以然。

读文献既要讲方法,也要讲基础。对医学专业的来说,给你一篇化学或者数学的文献,你又能理解多少呢?

我们平时读的文献,大部分还是以研究型为主,对中文文章,图表结合的多,比较看重文字,而SCI论文,更多是以图说话,因为图片更加直观。图片是SCI论文中结果呈现的主要形式,很多人刚开始读文献,可能不重视看图,从头至尾把文字读个遍,结果搞得自己一头雾水,不知所云。这种研究型的文章,在读完摘要之后,要先看图,大致了解作者都做了哪些工作,每组图要证明的是什么问题,然后再读文字的内容。

可是,没有文献基础,看到图连是什么类型的图都不知道,又怎么能知道作者要表达什么呢?

这个系列,一起来学习文献里那些导师以为你都会常见图都代表什么意思。

今天是第三期,讲讲另一种常见的图:箱式图

箱式图,又叫箱形图(Box-plot),是一种用作显示一组数据分散情况资料的统计图,因形状如箱子而得名。箱图主要用于反映原始数据分布的特征,还可以进行多组数据分布特征的比较。

先来直观感受一下,文献中看到这样的图就是箱式图了






箱式图主要需要关注的其实是5条线,即下图中的上界线、上四分位线、中位数线、下四分位线、下界线。

理解箱式图的含义,需要先回顾一下四分位数的知识,一组数据按照从小到大顺序排列后,把该组数据四等分的数,称为四分位数。

第一四分位数 (Q1),第二四分位数 (Q2,也叫“中位数”),第三四分位数 (Q3)分别等于该样本中所有数值由小到大排列后第25%、第50%和第75%的数字。第三四分位数与第一四分位数的差距又称四分位距(interquartile range, IQR)




下面这张图详细的解释了箱式图不同线的含义,先看箱体结构,箱体的上线(上四分位线)是Q3,下线(下四分位线)是Q1,所以箱体表示的即是四分位间距(IQR)箱体中间的线表示中位线(Q2)。上界线表示的是数据可能出现的最大值Q3+1.5IQR,下界表示可能出现的最小值Q1-1.5IQR。上界和下界背后有着一种概率的含义,并不是表示这组数据的最大值和最小值。对于小于下界、大于上界的数值,会以散点表示出来,通常被称作离群值或异常值。


至此,应该就可以明白箱式图所表达的主要意思了。

箱式图有什么用:

1、直观地识别异常数据

由于可以利用中位数、25/%分位数、75/%分位数、上边界、下边界等统计量的计算,可生成一个箱图,箱体区域包含的大部分为正常数据,而在箱体上边界和下边界之外的,就是异常数据。反之,箱形图可以用来直接观察数据整体的分布情况,凭借中位数、25/%分位数、75/%分位数等统计量,来描述数据的整体分布情况。

2、判断数据的偏态和尾重

对于标准正态分布的大样本,中位数位于上下四分位数的中央,箱形图的方盒关于中位线对称。中位数越偏离上下四分位数的中心位置,分布偏态性越强。异常值集中在较大值一侧,则分布呈现右偏态;异常值集中在较小值一侧,则分布呈现左偏态。

3、多批数据通过形状来比较

箱子的上下限,分别是数据的上四分位数和下四分位数。这意味着箱子包含了50%的数据。因此,箱子的宽度在一定程度上反映了数据的波动程度。箱体越扁说明数据越集中,端线越短,也说明数据集中。(如本文的第一张图)

箱式的绘制,Prism、R都可以完成,Prism简单易操作,后期出教程。

今天的分享就到这里,下期见。


【文献基础003】论文图表解读(3)——箱式图的评论 (共 条)

分享到微博请遵守国家法律