箱线图(Boxplot)也称箱须图(Box-whisker plot),是利用数据中的五个统计量:最小值、上四分位数、中位数、下四分位数与最大值来描述数据的一种方法。它也可以粗略地看出数据是否具有对称性,分布的离散程度等信息;特别适用于对几个样本的比较。
我们先看看大佬所绘制的箱线图,是不是很美观?赶快学起来吧!
在绘图之前先给大家分享一下五个统计量的基本关系:
中位数:从小到大排列数据集,然后计算中间位置。总数是奇数,则为位于中间的数值;总数是偶数,则中位数就是中间两个数的平均值。四分位数:一般数据集中的最小值我们称之为下界,最大值称之为上界。计算四分位数之前,第一步需要先求中位数M;
下四分位数Q1=数据集中所有数值由小到大排列后第25%的数字;
上四分位数Q3=数据集中所有数值由小到大排列后第75%的数字,
四分位数间距IQR=Q3-Q1
下界(Min):Q1-1.51QR。
上界(Max):Q3+1.5IQR
绘图之前我们需要将我们的数据处理成适合导入origin导入的格式,以方便我们粘贴进orign的工作表中,我以从统计年鉴上下载到的市生产总值作为示例,帮助大家掌握箱体图的绘制方法。
以下是我绘制箱体图的数据展示。