F分布是1924年英国统计学家R.A.Fisher提出,并以其姓氏的第一个字母命名的。它是一种非对称分布,有两个自由度,且位置不可互换。设X服从自由度为n1的卡方分布, Y服从自由度为n2的卡方分布,且X,Y独立,则称随机变量F=(X⁄n1 )/(Y⁄n2 )服从自由度为(n1,n2)的F分布,记为F~F(n1,n2)。其中n1称为第一自由度,n2称为第二自由度。
由F分布的公式可知,1/F~ F(n2,n1)。
在这里插入图片描述
F(n1,n2)的概率密度函数的图形为:(对于不同的自由度,图形也有差别,此处仅举2个例子)。
在这里插入图片描述
一、F分布的特征:
F分布有两个参数,对应的是两个自由度。F分布的均值和方差应该怎样来看呢?
1、均值:
在这里插入图片描述
2、方差:
在这里插入图片描述
二、F分布与t分布和卡方分布的关系:
可以从公式中直接看出来,F分布是两个卡方分布除以其自由度之后的比值;不仅如此,F分布与t分布也有着直接的关系。
在这里插入图片描述
T是随机变量,服从t分布,随机变量X~ N(0,1),Y~x^2 (n),且X与Y相互独立。
则:
T^2~F(1,n)
三、统计学上的应用:
照例先引出上∝分位数的概念:给定∝,0<∝<1,称满足条件
在这里插入图片描述
的点
在这里插入图片描述
为F(n1,n2)分布的上α分位数。
同时,若F分布的分子分母互换,可得
在这里插入图片描述
在这里插入图片描述
应用:
由于F分布是由2个卡方分布构造的,而卡方分布一般用于度量样本方差和误差之和。所以引出F分布的三个重要应用:两个正态总体的抽样分布、方差分析、回归分析。
1、两个正态总体的抽样分布
设样本(x_1,x_2,⋯x_n)和(y_1,y_2,⋯y_n)分别来自总体N(μ_1,σ_1^2) 和N(μ_2,σ_2^2),并且它们相互独立。样本均值分别为x ̅,y ̅;样本方差分别是S_1^2, S_2^2,则可以得到下面的抽样分布:
在这里插入图片描述
后续的使用与t分布中提到的类似,基于此定理构造枢轴量进行区间估价和假设检验。
2、方差分析
方差分析(Analysis of Variance,简称ANOVA),又称“变异数分析”,是R.A.Fisher发明的,用于两个及两个以上样本均值差别的显著性检验。此处检验在均值是否相等时,不再使用t检验来分别两两检验。而是通过研究波动(数据间的差异)来看数据的均值是否一致。同时,方差分析是在假设检验的思路框架下操作。
模型如下:
在这里插入图片描述
同时,还有一个假设检验的背景
在这里插入图片描述
注:
在这里插入图片描述
都描述了n个误差值,可谓是描述一个整体的三个角度。
方差分析定理:
在这里插入图片描述
简而言之,方差分析是通过波动来衡量均值的差异的(与我们一贯的想法有差别)。在卡方分布部分谈到过,抽样于正态整体的样本差异可以构造卡方分布。在F分布中,这种思路更进了一层。因为F分布是衡量比值的,此处的应用就是衡量2种误差的比值。
另外,方差分析里面还有假设检验的模型。基于特定的样本,在H_0成立的时候,产生一个随机变量(F)。我自己的理解就是当H_0不成立的时候,或者说拒绝原假设时,F很可能就不再是随机变量了。这与常见的假设检验不同,一般的假设检验都是在分布既定,参数未知的情况下进行的。
3、回归分析
回归分析(regression analysis)是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,这是回归分析的标准概念。如果放到统计学里面,回归分析可以理解为挖掘影响数据的多种因素,与多元随机变量有相通的地方。而回归分析在后续检验过程中,有拆分波动的地方,又与方差分析有部分类似的地方。
*模型如下:(以一元线性回归模型为例)
在这里插入图片描述
由此引出,回归模型要解决的问题:
i. 参数估计
在这里插入图片描述
ii. 参数检验
在这里插入图片描述
iii. 模型应用,一般来说就是预测Y。
*模型计算,使用最小二乘法。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
接下来与方差分析类似,构造三类波动。
在这里插入图片描述
回归分析定理:
在这里插入图片描述

Logo

开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!

更多推荐