概率论总结(五):抽样分布和参数估计(极大似然估计)
一、参数估计什么叫做参数估计?参数估计(parameter estimation),统计推断的一种。根据从总体中抽取的随机样本来估计总体分布中未知参数的过程。从估计形式看,区分为点估计与区间估计:从构造估计量的方法讲,有矩法估计、最小二乘估计、似然估计、贝叶斯估计等。参数要处理两个问题:(1)求出未知参数的估计量;(2)在一定信度(可靠程度)下指出所求的估计量的精度。信度一般用概率表示,如可信程度
一、样本及抽样分布
1. 随机样本的概念
定义设X是具有分布函数F的随机变量,若 X 1 , X 2 , … , X n X_1,X_2,…,X_n X1,X2,…,Xn是具有同分布函数F的、相互独立的随机变量,则称 X 1 , X 2 , … , X n X_1,X_2,…,X_n X1,X2,…,Xn为从分布函数F(或总体F、或总体X)得到的容量为n的简单随机样本,简称样本,它们的观察值 x 1 , x 2 , … , x n x_1,x_2,…,x_n x1,x2,…,xn称为样本值,又称为X的n个独立的观察值
2. 箱型图
直方图和箱型图都是为了研究总体分布的性质。
介绍箱型图前我们先要指导样本分位数。
样本分位数:
设有容量为n的仰恩观察值 x 1 , x 2 , . . . , x n x_1,x_2,...,x_n x1,x2,...,xn,样本p分位数(0<p<1)记为 x p x_p xp,它具有以下性质:(1)指导有np个观察值小于或等于 x p x_p xp,(2)至少有n(1-p)个观察值大于或等于 x p x_p xp
我们说的中位数就是二分之一分位数。
数据集的箱线图是有箱子和直线组成的凸显,它是基于以下5个数的图形概括;最小值Min,第一四分位数 Q 1 Q_1 Q1, 中位数M,第三四分位数 Q 3 Q_3 Q3和最大值Max。
3. 抽样分布
在学习抽样分布之前,需要了解几个概念
卡方分布
t分布
F分布
4. 正态总体的均值与样本方差的分布
上面我们介绍了很多抽样分布,如卡方分布、t分布和F分布。事实上,我的理解就是这些是为了描述正态总体的均值的方差的分布而提出的。为什么呢?不妨看看下面几条定理:
定理一
设
X
1
X_1
X1,
X
1
X_1
X1, …,
X
n
X_n
Xn 是来自正态总体
N
(
μ
,
σ
2
)
N(\mu ,\sigma ^2)
N(μ,σ2)的样本,
X
ˉ
\bar X
Xˉ是样本均值,则有
X
ˉ
∼
N
(
μ
,
σ
2
/
n
)
\bar X \sim N(\mu ,\sigma ^2/n)
Xˉ∼N(μ,σ2/n)
定理二
设 X 1 X_1 X1, X 1 X_1 X1, …, X n X_n Xn 是来自正态总体 N ( μ , σ 2 ) N(\mu ,\sigma ^2) N(μ,σ2), 的样本, X ˉ \bar X Xˉ, S 2 S^2 S2分别是样本均值和样本方差,则有
- ( n − 1 ) S 2 σ 2 ∼ χ 2 ( n − 1 ) \frac{(n-1)S^2}{\sigma ^2} \sim \chi^2(n-1) σ2(n−1)S2∼χ2(n−1)
- X ˉ \bar X Xˉ与 S 2 S^2 S2相互独立
定理三
设
X
1
X_1
X1,
X
1
X_1
X1, …,
X
n
X_n
Xn 是来自正态总体
N
(
μ
,
σ
2
)
N(\mu ,\sigma ^2)
N(μ,σ2), 的样本,
X
ˉ
\bar X
Xˉ,
S
2
S^2
S2分别是样本均值和样本方差,则有
X
ˉ
−
μ
S
/
n
∼
t
(
n
−
1
)
\frac{\bar X -\mu}{S/\sqrt n }\sim t(n-1)
S/nXˉ−μ∼t(n−1)
定理四
二、参数估计
什么叫做参数估计?
参数估计(parameter estimation),统计推断的一种。根据从总体中抽取的随机样本来估计总体分布中未知参数的过程。
从估计形式看,区分为点估计与区间估计:
从构造估计量的方法讲,有矩法估计、最小二乘估计、似然估计、贝叶斯估计等。
参数要处理两个问题:(1)求出未知参数的估计量;(2)在一定信度(可靠程度)下指出所求的估计量的精度。信度一般用概率表示,如可信程度为95%;精度用估计量与被估参数(或待估参数)之间的接近程度或误差来度量。
1. 点估计
点估计(point estimation)是依据样本估计总体分布中所含的未知参数或未知参数的函数。通常它们是总体的某个特征值,如数学期望、方差和相关系数等。点估计问题就是要构造一个只依赖于样本的量,作为未知参数或未知参数的函数的估计值。例如,设一批产品的废品率为θ。为了估计θ,从这批产品中随机地抽出n个作检查,以X记其中的废品个数,用X/n估计θ,这就是一个点估计。而我们知道,这里的参数估计的理论基础恰恰就是之前我们学过的大数定律,即样本均值收敛到总体均值(就是期望)。
下面是具体的点估计方法:
(1)矩估计法
用样本矩估计总体矩,从而得到总体分布中参数的一种估计。它的思想实质是用样本的经验分布和样本矩去替换总体的分布和总体矩。矩估计法的优点是简单易行, 并不需要事先知道总体是什么分布。缺点是,当总体类型已知时,没有充分利用分布提供的信息。一般场合下,矩估计量不具有唯一性。
矩估计法的具体做法如下。设
μ 1 = μ 1 ( θ 1 , θ 2 , . . . , θ k ) μ 2 = μ 2 ( θ 1 , θ 2 , . . . , θ k ) . . . μ k = μ k ( θ 1 , θ 2 , . . . , θ k ) \mu _1 = \mu _1(\theta _1,\theta _2,...,\theta _k)\\\mu _2 = \mu _2(\theta _1,\theta _2,...,\theta _k)\\...\\ \mu _k = \mu _k(\theta _1,\theta _2,...,\theta _k) μ1=μ1(θ1,θ2,...,θk)μ2=μ2(θ1,θ2,...,θk)...μk=μk(θ1,θ2,...,θk)
这里左边 μ 1 \mu _1 μ1是总体矩,解方程组,我们可以解出参数 θ 1 , θ 2 , . . . , θ k \theta _1,\theta _2,...,\theta _k θ1,θ2,...,θk
θ 1 = θ 1 ( μ 1 , μ 2 , . . . , μ k ) θ 2 = θ 2 ( μ 1 , μ 2 , . . . , μ k ) . . . θ k = θ k ( μ 1 , μ 2 , . . . , μ k ) \theta _1 = \theta _1(\mu _1,\mu _2,...,\mu _k)\\ \theta _2 = \theta _2(\mu _1,\mu _2,...,\mu _k)\\...\\ \theta _k = \theta _k(\mu _1,\mu _2,...,\mu _k) θ1=θ1(μ1,μ2,...,μk)θ2=θ2(μ1,μ2,...,μk)...θk=θk(μ1,μ2,...,μk)
但问题是我们是不知道总体距的。这是我们用样本矩 A l = 1 n ∑ i = 1 n X i l A_l =\frac{1}{n}\sum _{i=1}^{n}X_i^l Al=n1∑i=1nXil替换总体矩,就可以得到个参数 θ i \theta _i θi的估计量了。
θ ^ i = θ i ( A 1 , A 2 , . . . , A k ) , i = 1 , 2 , . . . , k \hat \theta_i = \theta _i(A_1,A_2,...,A_k),i=1,2,...,k θ^i=θi(A1,A2,...,Ak),i=1,2,...,k
这种估计量称为矩估计量。距估计量的观察值(就是 θ ^ i \hat \theta _i θ^i的实际值)称为距估计值。
举例:
(2)极大似然估计
最大似然估计于1912年由英国统计学家R.A.费希尔提出,利用样本分布密度构造似然函数来求出参数的最大似然估计。
如果总体X属于连续型,其概率密度
f
(
x
;
θ
)
,
θ
f(x;\theta),\theta
f(x;θ),θ为待估参数,
Θ
\Theta
Θ是
θ
\theta
θ可能的取值范围。设
X
1
,
X
2
,
.
.
.
,
X
n
X_1,X_2,...,X_n
X1,X2,...,Xn是来自X的样本
X
1
,
X
2
,
.
.
.
,
X
n
X_1,X_2,...,X_n
X1,X2,...,Xn的联合密度为
∏
i
=
1
n
f
(
x
i
,
θ
)
\prod _{i=1}^nf(x_i,\theta)
i=1∏nf(xi,θ)
设
x
1
,
x
2
,
.
.
.
,
x
n
x_1,x_2,...,x_n
x1,x2,...,xn是相应于样本
X
1
,
X
2
,
.
.
.
,
X
n
X_1,X_2,...,X_n
X1,X2,...,Xn的一个样本值,则随机点
(
X
1
,
X
2
,
.
.
.
,
X
n
)
(X_1,X_2,...,X_n)
(X1,X2,...,Xn)落在
(
x
1
,
x
2
,
.
.
.
,
x
n
)
(x_1,x_2,...,x_n)
(x1,x2,...,xn)的邻域(边长分别为
d
x
i
dx_i
dxi)内的概率近似为:
其值随
θ
\theta
θ的取值而变化。
现在我们来做一个分析,我们我们已经取到样本值 x 1 , x 2 , . . . , x n x_1,x_2,...,x_n x1,x2,...,xn了,说明这一样本值的概率比较大。我们当然不会考虑哪些不能是样本 x 1 , x 2 , . . . , x n x_1,x_2,...,x_n x1,x2,...,xn出现的 θ ∈ Θ \theta \in \Theta θ∈Θ作为 θ \theta θ的估计。所以我们在 θ \theta θ取值的可能范围 Θ \Theta Θ内挑选使得上面定义的概率最大的参数 θ ^ \hat \theta θ^作为 θ \theta θ的估计值。
由于因子 ∏ i = 1 n d x i \prod _{i=1}^{n}dx_i i=1∏ndxi
不随
θ
\theta
θ改变,所以只需让以下函数达到最大值
L
(
θ
)
=
L
(
x
1
,
x
2
,
.
.
.
x
n
;
θ
)
=
∏
i
=
1
n
f
(
x
i
;
θ
)
L(\theta)=L(x_1,x_2,...x_n;\theta)=\prod _{i=1}^{n}f(x_i;\theta)
L(θ)=L(x1,x2,...xn;θ)=i=1∏nf(xi;θ)
我们把该函数称为似然函数。如果
L
(
x
1
,
x
2
,
.
.
.
x
n
;
θ
^
)
=
max
θ
∈
Θ
L
(
x
1
,
x
2
,
.
.
.
x
n
;
θ
)
L(x_1,x_2,...x_n;\hat \theta)=\max _{\theta \in \Theta}L(x_1,x_2,...x_n;\theta)
L(x1,x2,...xn;θ^)=θ∈ΘmaxL(x1,x2,...xn;θ)
那么成 θ ^ ( x 1 , x 2 , . . . , x n ) \hat \theta(x_1,x_2,...,x_n) θ^(x1,x2,...,xn)为 θ \theta θ的自大似然估计值 θ ^ ( X 1 , X 2 , . . . , X n ) \hat \theta(X_1,X_2,...,X_n) θ^(X1,X2,...,Xn)为 θ \theta θ的最大似然估计量。
这样,确定最大似然估计量的问题就归结为微分学中的求最大值的问题了。也就是:
等价于
从后一个方程求解往往比较方便,它也成为对数似然方程。
例子:
2. 区间估计
什么是区间估计?顾名思义,区间估计就是我们给出一个区间,并给出我们所要估计的参数 θ \theta θ在这个区间里面的概率大小。
(1)置信区间
(2)正态总体均值和方差的区间估计
第一部分我们在抽样分布里面给出了正态总体均值和方差的分布,在这里可以用来做正态总体本身的数学期望和方差的区间估计。
进行区间估计的一般步骤
单个总体 N ( μ , σ 2 ) N(\mu, \sigma ^2) N(μ,σ2)的情况
i. 数学期望 μ \mu μ的置信区间
如果
σ
\sigma
σ是已知的,那么将如下所示
但如果
σ
\sigma
σ是未知的,这时候我们就不能用上面的式子。考虑到
S
2
S^2
S2是
σ
2
\sigma ^2
σ2的无偏估计,所以我们可以把上面的
σ
\sigma
σ换成
S
=
S
2
S=\sqrt {S^2}
S=S2, 有抽样分布中的定理三
X
ˉ
−
μ
S
/
n
∼
t
(
n
−
1
)
\frac{\bar X -\mu}{S/\sqrt n }\sim t(n-1)
S/nXˉ−μ∼t(n−1)
我们可以求得
μ
\mu
μ的一个置信水平未
1
−
α
1-\alpha
1−α的置信区间
(
X
ˉ
±
S
n
t
α
/
2
(
n
−
1
)
)
(\bar X\pm \frac{S}{\sqrt {n}}t_{\alpha/2}(n-1))
(Xˉ±nStα/2(n−1))
ii.方差
σ
2
\sigma ^2
σ2的置信区间
σ
2
\sigma ^2
σ2的无偏估计未
S
2
S^2
S2, 有抽样分布中的定理二
(
n
−
1
)
S
2
σ
2
∼
χ
2
(
n
−
1
)
\frac{(n-1)S^2}{\sigma ^2} \sim \chi^2(n-1)
σ2(n−1)S2∼χ2(n−1)
可得
两个总体
N
(
μ
1
,
σ
1
2
)
,
N
(
μ
2
,
σ
2
2
)
N(\mu _1, \sigma _1^2), N(\mu_2, \sigma _2^2)
N(μ1,σ12),N(μ2,σ22)的情况
i. 两个总体均值差的置信区间
若
σ
\sigma
σ已知
若
σ
\sigma
σ未知
那么有下面公式可得置信区间
i. 两个总体的方差比置信区间
(3)0-1分布参数的区间估计
三、参考资料
- 《概率论与数理统计》浙大第四版
开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!
更多推荐
所有评论(0)