一文看不懂方差和标准差

flyfish

以例子说明什么是均值(Mean),方差(Variance)和标准偏差((Standard Deviation)

测量狗的高度(毫米)
在这里插入图片描述

高度(在肩部)为:600mm,470mm,170mm,430mm和300mm。

找出均值(Mean),方差(Variance)和标准偏差((Standard Deviation)。

mean在就是average的意思表示平均水平
第一步是找到均值:

 Mean  = 600 + 470 + 170 + 430 + 300 5 = 1970 5 = 394 \begin{aligned} \text { Mean } &=\frac{600+470+170+430+300}{5} \\ &=\frac{1970}{5} \\ &=394 \end{aligned}  Mean =5600+470+170+430+300=51970=394
平均高度是394毫米。 看绿色的线段,我们把它画在图表上。
在这里插入图片描述

现在我们计算每只狗与平均值的差(difference)
在这里插入图片描述

要计算方差,需要对每个差进行平方,然后对结果进行平均.

方差(Variance)
σ 2 = 20 6 2 + 7 6 2 + ( − 224 ) 2 + 3 6 2 + ( − 94 ) 2 5 = 42436 + 5776 + 50176 + 1296 + 8836 5 = 108520 5 = 21704 \begin{aligned} \sigma^{2} &=\frac{206^{2}+76^{2}+(-224)^{2}+36^{2}+(-94)^{2}}{5} \\ &=\frac{42436+5776+50176+1296+8836}{5} \\ &=\frac{108520}{5} \\ &=21704 \end{aligned} σ2=52062+762+(224)2+362+(94)2=542436+5776+50176+1296+8836=5108520=21704
方差是21704

标准偏差=标准差
标准差就是方差的平方根
标准偏差(Standard Deviation)

σ = 21704 = 147.32 … \begin{aligned} \sigma &=\sqrt{21704} \\ &=147.32 \ldots \end{aligned} σ=21704 =147.32
约等于147

我们在一个标准偏差(147毫米)范围内显示高度
在这里插入图片描述
因此,使用标准差,我们可以通过“标准”方式了解什么是正常的,什么是特大或超小。
结论是罗特韦尔犬是高大的狗,腊肠有点短。

标准差是衡量数字分布的一种方法
所以把上面的计算方法变成公式是
在这里插入图片描述

问题一:为什么是差的平方?

把差之后的数,直接加起来,行不行?
把差之后的数,算绝对值,再加起来,行不行?

假设有这样的两组4个数
第一组是 9 、 9 、 1 、 1 9、9、1、1 9911
第二组是 12 、 6 、 − 1 、 3 12、6、-1、3 12613

计算第一组
均 值 = ( 9 + 9 + 1 + 1 ) / 4 = 5 均值 =( 9+9+1+1)/4=5 =9+9+1+1/4=5
计算各个数与均值差多少
9 − 5 = 4 9 − 5 = 4 1 − 5 = ( − 4 ) 1 − 5 = ( − 4 ) \begin{array}{l} 9-5=4 \\ 9-5=4 \\ 1-5=(-4) \\ 1-5=(-4) \end{array} 95=495=415=(4)15=(4)
可视化看一下
在这里插入图片描述

直接加起来0
4 + 4 − 4 − 4 4 = 0 \frac{4+4-4-4}{4}=0 44+444=0
用绝对值的方法算是4
∣ 4 ∣ + ∣ 4 ∣ + ∣ − 4 ∣ + ∣ − 4 ∣ 4 = 4 + 4 + 4 + 4 4 = 4 \frac{|4|+|4|+|-4|+|-4|}{4}=\frac{4+4+4+4}{4}=4 44+4+4+4=44+4+4+4=4
用平方的方法算是4

在这里插入图片描述

计算第二组
( 12 + 6 + ( − 1 ) + 3 ) / 4 = 5 (12+6+(-1)+3)/4=5 12+6+1+3/4=5
计算各个数与均值差多少
12 − 5 = 7 6 − 5 = 1 − 1 − 5 = ( − 6 ) 3 − 5 = ( − 2 ) \begin{array}{l} 12-5=7 \\ 6-5=1 \\ -1-5=(-6) \\ 3-5=(-2) \end{array} 125=765=115=(6)35=(2)

可视化看一下
在这里插入图片描述

直接加起来是0
用绝对值的方法算是4
∣ 7 ∣ + ∣ 1 ∣ + ∣ − 6 ∣ + ∣ − 2 ∣ 4 = 7 + 1 + 6 + 2 4 = 4 \frac{|7|+|1|+|-6|+|-2|}{4}=\frac{7+1+6+2}{4}=4 47+1+6+2=47+1+6+2=4
用平方的方法算是4.74

在这里插入图片描述

我们希望的是当差异分布得越广,标准差就越大。用平方算,这是其中一个理由。

教科书《概率论与数理统计》浙江大学第四版的答案是
E { ∣ X − E ( X ) ∣ } E\{|X-E(X)|\} E{XE(X)}能度量随机变量与其均值 E ( X ) E(X) E(X)的偏离程度。但由于上式带有绝对值,运算不方便,通常用量 E { [ X − E ( X ) ] 2 } E\left\{[X-E(X)]^{2}\right\} E{[XE(X)]2}来度量随机变量 X X X与其均值 E ( X ) E(X) E(X)的偏离程度。

方差的定义

这样定义就有了
X X X是一个随机变量,若 E { [ X − E ( X ) ] 2 } E\left\{[X-E(X)]^{2}\right\} E{[XE(X)]2}存在,则称 E { [ X − E ( X ) ] 2 } E\left\{[X-E(X)]^{2}\right\} E{[XE(X)]2} X X X的方差,记为 D ( X ) D(X) D(X)或Var(X)。
D ( X ) = Var ⁡ ( X ) = E { [ X − E ( X ) ] 2 } D(X)=\operatorname{Var}(X)=E\left\{[X-E(X)]^{2}\right\} D(X)=Var(X)=E{[XE(X)]2},而 σ ( X ) = D ( X ) = E { [ X − E ( X ) ] 2 } \sigma(X)=\sqrt{D(X)}=\sqrt{E\left\{[X-E(X)]^{2}\right\}} σ(X)=D(X) =E{[XE(X)]2} 称为标准差或均方差。
他说的运算不方便是怎么回事呢?
人手工算还是计算机算,在什么情况下运算不方便?

看看其他人相关的回答真的很精彩
why-is-it-so-cool-to-square-numbers-in-terms-of-finding-the-standard-deviation

why-square-the-difference-instead-of-taking-the-absolute-value-in-standard-devia

Revisiting a 90-year-old debate: the advantages of the mean deviation

方差这个词是怎么来的呢?

罗纳德·费雪(Ronald Fisher 1890-1962)
现代统计学与现代演化论的奠基者之一,最大似然估计就是他发明的。
第一次世界大战时期他也发表了许多与生物统计相关的论文,包括《孟德尔遗传假定下的亲戚之间的相关性》(The Correlation Between Relatives on the Supposition of Mendelian Inheritance)。这篇论文在1916年完成,并在1918年发表,它同时建立了以生物统计为基础的遗传学,以及著名的统计学分法变异数分析(analysis of variance,简写为ANOVA,也称方差分析)。方差一词就是从他的论文《The Correlation Between Relatives on the Supposition of Mendelian Inheritance》 提出的。
标准差的公式有两个
总体标准差(Population Standard Deviation)和样本标准差(Sample Standard Deviation)

不一样的方差

如果这些数据只是样本呢,就是我们有20只狗,我们只测量了5只
公式就放生了变化
原来的公式叫总体标准差
现在公式要变了叫样本标准差 公式如下
在这里插入图片描述

看分母一个是N,一个是N-1,为什么是这样呢?

这可是高手云集要回答的问题
为什么样本方差(sample variance)的分母是 n-1?
如何理解统计学中自由度这个概念?

证明请参考

在这里插入图片描述

另一种证明
在这里插入图片描述
参考
https://www.mathsisfun.com/data/standard-deviation.html

Logo

开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!

更多推荐