参数估计方法:利用样本统计量估计总体统计量
在统计学中,矩是描述数据分布特征的一种度量。原点矩(Raw Moments)。k阶原点矩定义为:μk′EXkμk′EXk,例如,第一阶原点矩是均值 E(X),第二阶原点矩是EX2E(X^2)EX2。中心矩(Central Moments)。k阶中心矩定义为:μkEX−μkμkE[(X−μk。例如,第一阶中心矩是0,第二阶中心矩是方差VarXEX−μ2VarXE[(X−μ2。
参数估计方法
在统计学中,由于大多数情况下难以获得总体的情况(往往已知总体服从某种分布,但是不知道分布的参数),所以人们通常选择通过样本去估计总体(因为我们可以抽样,通过样本的统计量估计总体的统计量)。统计量就是样本的数字特征,包括样本均值、样本方差、样本中心矩、样本原点矩等。
1 点估计
设总体X的分布函数形式已知,但它的一个或多个参数未知,借助于总体X的一个样本来估计总体未知参数的值的问题称为参数的点估计(Point Estimation)问题,也就是说,点估计是使用样本数据来估计总体参数的单一数值。点估计的结果是一个具体的数值,它是对未知总体参数的最佳猜测。点估计包括矩估计法和最大似然估计法。
总体参数(Population Parameter):是指描述总体特征的数值。总体是指我们感兴趣的全部个体或数据的集合,而总体参数则是对这个集合的某个特征的度量。总体参数通常是未知的,我们通过样本数据来估计这些参数。
常见的总体参数:
- 总体均值 μ \mu μ:描述总体中所有个体或数据的平均值。例如,某城市所有居民的平均收入。
- 总体方差 σ 2 \sigma^2 σ2:描述总体中所有个体或数据的离散程度,即数据与均值的偏离程度。例如,某城市所有居民收入的方差。
- 总体标准差 σ \sigma σ:总体方差的平方根,描述数据的离散程度。例如,某城市所有居民收入的标准差。
- 总体比例 p p p:描述总体中具有某种特征的个体所占的比例。例如,某城市中支持某个候选人的居民比例。
在统计推断中,估计量和估计值是两个重要的概念,用于从样本数据中推断总体参数。它们在统计分析中扮演着关键角色。下面详细解释这两个概念。
估计量(Estimator):估计量是一个统计量,用于从样本数据中估计总体参数。它是一个随机变量,因为它依赖于随机抽取的样本。估计量通常用大写字母表示,如 θ ^ \hat{\theta} θ^ 或 X ^ \hat{X} X^。
估计量的特性
- 无偏性:一个估计量 θ ^ \hat{\theta} θ^ 是无偏的,如果其期望值等于被估计的总体参数 θ \theta θ,即 E ( θ ^ ) = θ E(\hat{\theta}) = \theta E(θ^)=θ。
- 一致性:一个估计量 θ ^ \hat{\theta} θ^是一致的,如果随着样本量 n 的增加, θ ^ \hat{\theta} θ^收敛于被估计的总体参数 θ \theta θ。
- 有效性:在所有无偏估计量中,具有最小方差的估计量称为有效估计量。
常见的估计量
- 样本均值 X ˉ \bar{X} Xˉ:用于估计总体均值 μ \mu μ。 X ˉ = 1 n ∑ i = 1 n X i \bar{X} = \frac{1}{n} \sum_{i=1}^{n} X_i Xˉ=n1∑i=1nXi
- 样本方差 S 2 S^2 S2:用于估计总体方差 σ 2 \sigma^2 σ2。 S 2 = 1 n − 1 ∑ i = 1 n ( X i − X ˉ ) 2 S^2 = \frac{1}{n-1} \sum_{i=1}^{n} (X_i - \bar{X})^2 S2=n−11∑i=1n(Xi−Xˉ)2
- 样本比例 p ^ \hat{p} p^:用于估计总体比例 p p p。 p ^ = x n \hat{p} = \frac{x}{n} p^=nx ,其中 x x x 是样本中具有某特征的个体数, n n n 是样本总数。
估计值(Estimate):估计值是估计量在具体样本数据上的取值。它是一个具体的数值,用于作为总体参数的近似值。估计值通常用小写字母表示,如 θ ^ \hat{\theta} θ^ 或 x ^ \hat{x} x^。
例子:假设我们有一个样本数据集,用于估计总体均值。
- 估计量:样本均值 X ˉ \bar{X} Xˉ 是估计总体均值 μ \mu μ 的估计量。
- 估计值:如果从样本数据中计算得到的样本均值为50,那么50就是估计值。
1.1 矩估计
矩估计(Method of Moments)是一种统计估计方法,用于从样本数据中估计总体参数。它基于样本矩与总体矩的关系,通过匹配样本矩和总体矩来推导出参数的估计值。矩估计法是一种简单而直观的估计方法,特别适用于一些复杂的分布。
矩估计:就是在某个分布下采样得到的采样的样本值求平均(样本均值)来近似估计这个分布下总体的期望。根据大数定律,采样的样本越多,其样本均值越接近于期望的真实值,即均值。
1.1.1 矩的定义
在统计学中,矩是描述数据分布特征的一种度量。常见的矩包括:
- 原点矩(Raw Moments)。k阶原点矩定义为: μ k ′ = E ( X k ) \mu'_k = E(X^k) μk′=E(Xk),例如,第一阶原点矩是均值 E(X),第二阶原点矩是 E ( X 2 ) E(X^2) E(X2)。
- 中心矩(Central Moments)。k阶中心矩定义为: μ k = E [ ( X − μ ) k ] \mu_k = E[(X - \mu)^k] μk=E[(X−μ)k]。例如,第一阶中心矩是0,第二阶中心矩是方差 V a r ( X ) = E [ ( X − μ ) 2 ] Var(X) = E[(X - \mu)^2] Var(X)=E[(X−μ)2]。
1.1.2 矩估计法的步骤
矩估计法的基本思想是通过样本矩来估计总体矩,然后利用这些估计的总体矩来求解总体参数。具体步骤如下:
- 计算样本矩:从样本数据中计算样本矩。对于样本 X 1 , X 2 , … , X n {X_1, X_2, \ldots, X_n} X1,X2,…,Xn,第 k阶样本矩定义为: m k = 1 n ∑ i = 1 n X i k m_k = \frac{1}{n} \sum_{i=1}^{n} X_i^k mk=n1∑i=1nXik
- 设定总体矩的表达式:根据总体分布的形式,写出总体矩的表达式。这些表达式通常是总体参数的函数。
- 匹配样本矩和总体矩:将样本矩等于总体矩的表达式,得到关于总体参数的方程组。
- 解方程组:解方程组,得到总体参数的估计值。
1.1.3 举例说明
假设我们有一个样本数据集,想要估计总体均值 μ \mu μ 和总体方差 σ 2 \sigma^2 σ2
- 计算样本矩:
样本均值(第一阶原点矩): m 1 = 1 n ∑ i = 1 n X i m_1 = \frac{1}{n} \sum_{i=1}^{n} X_i m1=n1∑i=1nXi
样本二阶矩(第二阶原点矩): m 2 = 1 n ∑ i = 1 n X i 2 m_2 = \frac{1}{n} \sum_{i=1}^{n} X_i^2 m2=n1∑i=1nXi2 - 设定总体矩的表达式:
第一阶总体矩(均值): μ 1 = μ \mu_1 = \mu μ1=μ
第二阶总体矩: μ 2 = μ 2 + σ 2 \mu_2 = \mu^2 + \sigma^2 μ2=μ2+σ2 - 匹配样本矩和总体矩,将样本矩等于总体矩:
m 1 = μ m_1 = \mu m1=μ
m 2 = μ 2 + σ 2 m_2 = \mu^2 + \sigma^2 m2=μ2+σ2 - 解方程组,得:
μ = m 1 \mu=m_1 μ=m1
σ 2 = m 2 − m 1 2 \sigma^2 = m_2 - m_1^2 σ2=m2−m12
因此,通过矩估计法,我们得到总体均值 μ \mu μ的估计值为样本均值 m 1 m_1 m1,总体方差 σ 2 \sigma^2 σ2 的估计值为 m 2 − m 1 2 m_2 - m_1^2 m2−m12。
1.1.4 矩估计法的优缺点
优点
- 简单直观:矩估计法的计算过程相对简单,易于理解和实现。
- 适用广泛:适用于各种分布,特别是一些复杂的分布。
缺点
- 效率较低:在某些情况下,矩估计法的估计效率较低,可能不如最大似然估计(MLE)等方法。
- 不一定无偏:矩估计法得到的估计量不一定是无偏的。
1.2 极大似然估计
极大似然估计(Maximum Likelihood Estimation,简称 MLE)是一种统计方法,用于从样本数据中估计总体参数。MLE 的基本思想是找到使得观测数据出现的概率(或似然)最大的参数值。它是一种广泛应用且非常有效的估计方法。
1.2.1 极大似然估计的步骤
设总体X属于离散型,假设我们有一个样本数据集 X 1 , X 2 , … , X n {X_1, X_2, \ldots, X_n} X1,X2,…,Xn是来自总体X的样本,这些数据来自一个已知形式但参数未知的概率分布 P { X = x } = p ( x ; θ ) P\{X=x\}=p(x;\theta) P{X=x}=p(x;θ)。我们希望估计这个分布的参数 θ \theta θ。
分布律 P { X = x i } = p ( x ; θ ) P\{X = x_i\} = p(x; \theta) P{X=xi}=p(x;θ) 表示离散型随机变量 X X X 在特定值 x i x_i xi 处的概率,并且这个概率是参数 θ \theta θ 的函数。这个表达式描述了随机变量 X X X 的概率分布特征,参数 θ \theta θ 则描述了分布的具体形态。通过了解分布律和概率质量函数,我们可以更好地分析和处理离散型随机变量的概率分布。
-
似然函数(Likelihood Function):
似然函数 L ( θ ) L(\theta) L(θ)表示在给定参数 θ \theta θ下,观测到样本数据的概率。
对于独立同分布的样本,似然函数通常表示为各个样本点概率的乘积: L ( θ ) = P ( X 1 , X 2 , … , X n ∣ θ ) = ∏ i = 1 n f ( X i ∣ θ ) L(\theta) = P(X_1, X_2, \ldots, X_n \mid \theta) = \prod_{i=1}^{n} f(X_i \mid \theta) L(θ)=P(X1,X2,…,Xn∣θ)=∏i=1nf(Xi∣θ)
其中, f ( X i ∣ θ ) f(X_i \mid \theta) f(Xi∣θ) 是样本点 X i X_i Xi在参数 θ \theta θ下的概率密度函数或概率质量函数。对于独立同分布(i.i.d.)的样本,似然函数通常表示为各个样本点概率的乘积,这与联合分布律有直接关系
概率质量函数(Probability Mass Function, PMF):用于描述离散型随机变量的概率分布。对于一个离散型随机变量 X X X,PMF 给出了 X X X 取特定值 x x x 的概率 p ( x ) = P ( X = x ) p(x) = P(X = x) p(x)=P(X=x)
概率密度函数(Probability Density Function, PDF):概率密度函数PDF用于描述连续型随机变量的概率分布。对于一个连续型随机变量 X X X,PDF 描述了 X X X 在某个特定值 x x x 处的概率密度。对于任意区间 [ a , b ] [a, b] [a,b],随机变量 X X X 落在这个区间内的概率可以通过积分计算: P ( a ≤ X ≤ b ) = ∫ a b f ( x ) d x P(a \leq X \leq b) = \int_{a}^{b} f(x) \text dx P(a≤X≤b)=∫abf(x)dx -
对数似然函数(Log-Likelihood Function):
为了简化计算,通常取似然函数的对数,得到对数似然函数: ℓ ( θ ) = log L ( θ ) = ∑ i = 1 n log f ( X i ∣ θ ) \ell(\theta) = \log L(\theta) = \sum_{i=1}^{n} \log f(X_i \mid \theta) ℓ(θ)=logL(θ)=∑i=1nlogf(Xi∣θ) -
极大化对数似然函数:
通过求解对数似然函数的最大值(通过求导,令导数=0,得到关于 θ \theta θ的方程,解方程),找到使得观测数据出现的概率最大的参数值 θ ^ \hat{\theta} θ^。
具体来说,极大似然估计量 θ ^ \hat{\theta} θ^ 是使对数似然函数达到最大值的参数值: θ ^ = arg max θ ℓ ( θ ) \hat{\theta} = \arg\max_{\theta} \ell(\theta) θ^=argmaxθℓ(θ)
1.2.2 例子
有一个装有红球和蓝球的盒子,但不知道盒子里红球和蓝球的比例,也不知道盒子里总共有多少个球。假设某一次摸出了10个球,其中有7个红球和3个蓝球,那么如何估计红球的比例。
由于每次摸球是独立的,联合概率可以表示为各个样本点概率的乘积:
L
(
p
)
=
P
(
X
1
,
X
2
,
…
,
X
10
∣
p
)
=
∏
i
=
1
10
P
(
X
i
∣
p
)
L(p) = P(X_1, X_2, \ldots, X_{10} \mid p) = \prod_{i=1}^{10} P(X_i \mid p)
L(p)=P(X1,X2,…,X10∣p)=∏i=110P(Xi∣p)
具体来说,似然函数为:
L
(
p
)
=
p
7
(
1
−
p
)
3
L(p) = p^7 (1 - p)^3
L(p)=p7(1−p)3
为了简化计算,取似然函数的对数,得到对数似然函数:
ℓ
(
p
)
=
log
L
(
p
)
=
log
(
p
7
(
1
−
p
)
3
)
\ell(p) = \log L(p) = \log \left( p^7 (1 - p)^3 \right)
ℓ(p)=logL(p)=log(p7(1−p)3)
ℓ
(
p
)
=
7
log
p
+
3
log
(
1
−
p
)
\ell(p) = 7 \log p + 3 \log (1 - p)
ℓ(p)=7logp+3log(1−p)
极大化对数似然函数:
求导:
d
ℓ
(
p
)
d
p
=
7
p
−
3
1
−
p
\frac{d\ell(p)}{dp} = \frac{7}{p} - \frac{3}{1 - p}
dpdℓ(p)=p7−1−p3
设导数为零:
7
p
−
3
1
−
p
=
0
\frac{7}{p} - \frac{3}{1 - p} = 0
p7−1−p3=0
解方程:
7
p
=
3
1
−
p
\displaystyle \frac{7}{p} = \frac{3}{1 - p}
p7=1−p3
7
(
1
−
p
)
=
3
p
7(1 - p) = 3p
7(1−p)=3p
7
−
7
p
=
3
p
7 - 7p = 3p
7−7p=3p
7
=
10
p
7 = 10p
7=10p
p
=
7
10
p = \frac{7}{10}
p=107
因此,红球比例 p p p的极大似然估计值为: p ^ = 7 10 = 0.7 \hat{p} = \frac{7}{10} = 0.7 p^=107=0.7
1.2.3 极大似然估计基本思想
用一句话总结极大似然估计的思想:当一件事情已经发生,则有理由认为该事件发生的概率较大。如有一个装有红球和蓝球的盒子,但不知道盒子里红球和蓝球的比例,也不知道盒子里总共有多少个球。若摸一次球,摸出了n=10个球,其中有k=7个红球和3个蓝球,则有理由认为盒子中红球比蓝球多,且摸到红球的改率为0.7。
通过这个摸球的例子,我们可以看到极大似然估计的基本思想:在已知样本数据(摸出的球的颜色)的情况下,选择使得观测数据出现的概率(或似然)最大的参数值(红球的比例 p p p)。具体来说,我们通过最大化似然函数或对数似然函数,找到了红球比例的估计值 p ^ = k n \hat{p} = \frac{k}{n} p^=nk,即红球数量占总摸球数量的比例。
2 区间估计
点估计通常通过简单的公式计算得到,如样本均值、样本方差等,点估计提供一个具体的数值,易于理解和解释。但是没有反映出估计的不确定性,可能存在系统性偏差,不能完全反映总体参数的真实值。区间估计不仅提供了一个估计值,还提供了一个范围,使得我们可以更全面地了解总体参数的可能取值,使得估计更加可靠。
区间估计通过置信区间提供了一个范围,使得我们可以了解估计值的可靠性。例如,假设我们估计某个城市的平均收入为50000元。如果我们只提供这个点估计值,无法知道这个估计值的准确性。而通过区间估计,我们可以提供一个置信区间,如(48000元, 52000元),表示我们有95%的把握认为城市的平均收入在这个范围内。
举个例子:比如你想知道全国所有中学生的平均身高,你不可能去测量每一个学生的身高,因此采取了随机抽样的方式,用样本去预估去全国所有中学生的身高。假设你随机抽取了100名学生,其平均身高为150cm,方差为25。
- 如果你用100个样本的平均值得出全国中学生的平均身高是150cm,这就是点估计,150cm就是点估计量(根据中心极限定理,样本的均值和总体的均值是相似的)。
- 如果你不想用样本的一个平均值去估计整体的平均值(比如150cm),而是用一个区间去估计(比如140-155cm),这就叫区间估计。区间估计相比点估计留有更大的容错空间。
- 区间的范围很大,你可以预测身高是149-151cm之间,也可以预测是140-160cm之间,也可以是其他。但你会看到,前者相比后者预测准确的概率更低,因为其预测的区间范围太窄;而后者预测准确的概率更高,因为其预测的区间范围更宽。所以,具体如何确定估计的范围(也就是置信区间)取决于你对预估结果准确概率的要求(也就是置信水平)。如果你希望结果准确的概率更高,那么区间的范围(置信区间)就设置的越宽;如果置信水平越低,置信区间就设置的越窄。
很显然区间估计的命中率会更高(当然费用会更高,因为风险降低了)。
虽然点估计可以提供一个具体的数值来估计总体参数,但区间估计提供了更多的信息,特别是关于估计的不确定性。区间估计通过置信区间提供了估计值的范围,使得我们可以更全面地了解总体参数的可能取值,提高决策的可靠性。因此,在统计推断中,区间估计是点估计的重要补充,提供了更加完整和可靠的估计信息。
以上用规范的语言表达就是:
对于一个未知量,人们在测量或计算时,常不以得到近似值为满足,还需估计误差,即要求知道近似值的精确程度(亦即所求真值所在的范围)。类似地,对于未知参数
θ
\theta
θ,除了求出它的点估计
θ
^
\hat{\theta}
θ^外,我们还希望估计出一个范围,并希望知道这个范围包含参数
θ
\theta
θ真值的可信程度。这样的范围通常以区间的形式给出,同时还给出此区间包含参数
θ
\theta
θ真值的可信程度。这种形式的估计称为区间估计,这样的区间即所谓置信区间。
- https://blog.csdn.net/weixin_46490424/article/details/105220826
开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!
更多推荐
所有评论(0)