上一篇文章提及了卡方分布,本文接着介绍另一类重要的抽样分布–t分布。
简单说一下背景,“t”,是Fisher为之取的名字。Fisher最早将这一分布命名为“Student’s distribution”,并以“t”为之标记。Student,则是William Sealy Gosset(戈塞特)的笔名。他当年在爱尔兰都柏林的一家酒厂工作,设计了一种后来被称为t检验的方法来评价酒的质量。因为行业机密,酒厂不允许他的工作内容外泄,所以当他后来将其发表到至今仍十分著名的一本杂志《Biometrika》时,就署了student的笔名。所以现在很多人知道student,知道t,却不知道Gosset。
一、t分布的定义:
设随机变量X~ N(0,1),Y~x^2 (n)(自由度为n的卡方分布),且X与Y相互独立,则称随机变量
在这里插入图片描述
服从自由度为n的t分布。
t分布的概率密度函数为:
在这里插入图片描述
特别的,n=1时,t分布就是柯西分布(柯西分布:无期望,无方差):
在这里插入图片描述
当n→∞时,t分布就是标准正态分布。(均值为0,方差为1):
在这里插入图片描述
二、t分布的特征:
一般来看,t分布只有一个参数,就是自由度,那么如何从这个参数来理解分布的特征呢?
首先,t分布是关于Y轴对称的,故t分布的均值为0;
其次,t分布的方差计算较为复杂,实际情况中,更多的使用样本方差。这也说明,对于t分布,需要了解图形随着自由度的变化趋势。
下图是t分布的概率密度函数图形。可以看出当自由度小的时候,t分布相较于正态分布,更“温和”。当自由度越来越大的时候,t分布更接近于正态分布。(这是因为正态分布的一个特征就是可以描述多种因素共同作用的效果)
在这里插入图片描述
三、t分布在统计学上的应用:
1、首先引出上∝分位数的概念:由于t分布也是抽样分布,所以对于t分布也需要关注上∝分位数。给定∝,0<∝<1,称满足条件
在这里插入图片描述
的点t_α (n)为t(n)分布的上α分位数。由于t分布是关于Y轴对称的,所以有t_(1-α) (n)=-t_α (n).
在这里插入图片描述
2、基础定理:
构造t分布的关键点是卡方分布,因为t分布里面包含了一个卡方分布。根据上文,正态分布总体样本方差与总体方差的比值结合一个系数(自由度)构成卡方分布。故引出抽样统计中二个重要定理:单个正态总体的抽样分布、两个正态总体的抽样分布。
1)、单个正态总体的抽样分布:
设总体X~N(μ,σ^2),x_1,x_2,⋯x_n是样本,样本均值
在这里插入图片描述
样本方差
在这里插入图片描述

在这里插入图片描述
此处需要注意的是自由度是n-1。原因是
在这里插入图片描述
2)、两个正态总体的抽样分布
设样本(x_1,x_2,⋯x_n)和(y_1,y_2,⋯y_n)分别来自总体N(μ_1,σ_1^2) 和N(μ_2,σ_2^2),并且它们相互独立,样本均值分别为x ̅,y ̅;样本方差分别是S_1^2, S_2^2,则可以得到下面的抽样分布:
在这里插入图片描述
当σ_1^2 =σ_2^2 =σ^2时,
在这里插入图片描述
其中,
在这里插入图片描述
3、应用
基于以上2个定理,可以构造枢轴量,进而操作区间估计和假设检验;另一方面,t分布在回归模型中也有涉及。以下分别介绍:
1)、枢轴量
单个正态总体的均值μ(方差未知):
在这里插入图片描述
基于这个枢轴量进行单个正态总体的均值的估计,和检验(此处有个别名为t检验)。
两个独立正态总体的均值差(方差相等但是未知):
在这里插入图片描述
另外,有一种特殊的情况在以上两种之外,就是小样本(样本量小于30),两个独立正态总体的均值差(方差不相等同时也未知),此处的统计量是近似服从t(k)分布。
在这里插入图片描述
在这里插入图片描述
基于以上的枢轴量操作的两个独立正态总体均值差的估计,和检验(t检验)。
2)、回归模型
回归模型所描述的是一系列独立同分布的正态分布,它们的共同特征。模型为
在这里插入图片描述
由最小二乘法计算出β_1的估计值。有以下的结论,
在这里插入图片描述
由此构造t检验量:
在这里插入图片描述
其中:
在这里插入图片描述
在这里插入图片描述
照旧:
在这里插入图片描述
由以上可知,t分布描述了基于正态分布抽样,描述由抽样样本标准化后形成的标准正态分布/样本方差与总体方差形成的卡方分布。显而易见的是样本数量越大,样本越接近总体,t检验也越接近正态分布。

Logo

开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!

更多推荐