算法: 四分位数+箱线图
方差、协方差、四分位差笔记_Miracle.Zhao的博客-CSDN博客_四分位差四分位数定义什么箱线图?它能在什么场景下进行数据分析 - 知乎四分位数的工作原理四分位数将数据分为三个点:下四分位数、中位数和上四分位数,形成四组数据集。下四分位数或第一四分位数表示为Q1,是介于数据集最小值和中间值之间的中间数。第二个四分位数Q2也是中位数。上四分位数或第三个四分位数,表示为Q3,是分布中
方差、协方差、四分位差笔记_Miracle.Zhao的博客-CSDN博客_四分位差
四分位数的工作原理
四分位数将数据分为三个点:下四分位数、中位数和上四分位数,形成四组数据集。下四分位数或第一四分位数表示为Q1,是介于数据集最小值和中间值之间的中间数。第二个四分位数Q2也是中位数。上四分位数或第三个四分位数,表示为Q3,是分布中位数和最高值之间的中心点。
现在,我们可以画出由四分位数组成的四组。第一组值包含到Q1为止的最小值;第二组包括到中间值的Q1;第三组是到Q3的中间值;第四类包括到整个集合中最高数据点的Q3。
每个四分位数包含总观察值的25%。一般来说,数据是从最小到最大排列的:
- 第一个四分位数:数字中最低的25%
- 第二个四分位数:介于25.1%和50%之间(直到中位数)
- 第三个四分位数:51%到75%(高于中位数)
- 第四个四分位数:数字中最高的25%
四分位差(quartile deviation),它是上四分位数(Q3,即位于75%)与下四分位数(Q1,即位于25%)的差
计算公式为:Q = Q3-Q1
四分位差反映了 中间50%数据的离散程度,其数值越小,说明中间的数据越集中;其数值越大,说明中间的数据越分散。四分位差不受极值的影响。此外,由于中位数处于数据的中间位置,因此,四分位差的大小在一定程度上也说明了中位数对一组数据的代表程度。四分位差主要用于测度顺序数据的离散程度。对于数值型数据也可以计算四分位差,但不适合分类数据。
四分位数示例
假设一个由19名学生组成的班级的数学分数按升序分布为:
59, 60, 65, 65, 68, 69, 70, 72, 75, 75, 76, 77, 81, 82, 84, 87, 90, 95, 98
计算方法:
首先对数据进行排序,求出 Q l、 Q 3所在的位置;其次根据位置确定其对应的标志值即 Q l、 Q 3;最后计算二者差额的一半,即就是四分位差。
Q l的位置= (n + 1) / 4
Q 3的位置= 3*(n + 1) / 4
①计算 Q 1,与 Q 3的位置。
Q 1的位置= (n + 1) / 4 = (19 + 1) / 4 = 5
Q 3的位置= 3*(n + 1) / 4 = 3*(19 + 1) / 4 = 15
即 Q 1与 Q 3的位置分别为第2位和第6位。
②确定 Q 1与 Q 3的数值。
Q 1=68(分数)
Q 3=84(分数)
即第2位和第6位对应分数分别为68和84。
③计算四分位差。
Q.D.= Q 3 − Q 1=84-68=16(岁)
④含义。 说明数学分数有50%的人集中在68~84岁之间,最大差异为16岁 。
什么是箱线图
箱线图,又名为盒须图,盒式图,通常用于展示一组数据的分布情况,因为主题形状像一个箱子,所以得名箱线图。它主要用于反映原始数据分布的特征,还可以进行多组数据分布特征的比较。
箱线图是由美国著名的统计学家约翰.图基发明的,它主要展现了一组数据的几个关键数据点,包括最大值、最小值、中位数以及上下两个4分位数。也就是说,无论一组数据的量有多少,它只会在计算后,获取这几个计算后的数据来作为数据点,来绘制箱线图。
在箱线图中,箱子的中间有一条线,代表了数据的中位数。箱子的上下底,分别是数据的上四分位数(Q3)和下四分位数(Q1),这意味着箱体包含了50%的数据。因此,箱子的高度在一定程度上反映了数据的波动程度,上下边缘则代表了该组数据的最大值和最小值。有时候箱子外部会有一些点,可以理解为数据中的“异常值”。
我们先看一个简单的箱线图应用,大家就应该很好理解了。分析不同学年、不同科目的学生成绩是箱线图的常见应用场景,下图中我们可以看到学生的英语成绩相对其它科目普遍较好,而数学则大部分都在80分以下。
所以要快速理解箱线图,那么一定要了解这2个概念:
四分位数
一组数据按照从小到大顺序排列后,把该组数据四等分的数,称为四分位数。第一四分位数 (Q1)、第二四分位数 (Q2,也叫“中位数”)和第三四分位数 (Q3)分别等于该样本中所有数值由小到大排列后第25%、第50%和第75%的数字。第三四分位数与第一四分位数的差距又称四分位距(interquartile range, IQR)。
偏态
与正态分布相对,指的是非对称分布的偏斜状态。在统计学上,众数和平均数之差可作为分配偏态的指标之一:如平均数大于众数,称为正偏态(或右偏态);相反,则称为负偏态(或左偏态)。
开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!
更多推荐
所有评论(0)