在统计学中,由于大多数情况下难以获得总体的情况(往往已知总体服从某种分布,但是不知道分布的参数),所以人们通常选择通过样本去估计总体(因为我们可以抽样,通过样本的统计量估计总体的统计量)。统计量就是样本的数字特征,包括样本均值、样本方差、样本中心矩、样本原点矩等。

1 点估计

设总体X的分布函数形式已知,但它的一个或多个参数未知,借助于总体X的一个样本来估计总体未知参数的值的问题称为参数的点估计(Point Estimation)问题,也就是说,点估计是使用样本数据来估计总体参数的单一数值。点估计的结果是一个具体的数值,它是对未知总体参数的最佳猜测。点估计包括矩估计法和最大似然估计法。

总体参数(Population Parameter):是指描述总体特征的数值。总体是指我们感兴趣的全部个体或数据的集合,而总体参数则是对这个集合的某个特征的度量。总体参数通常是未知的,我们通过样本数据来估计这些参数。
常见的总体参数:

  • 总体均值 μ \mu μ:描述总体中所有个体或数据的平均值。例如,某城市所有居民的平均收入。
  • 总体方差 σ 2 \sigma^2 σ2:描述总体中所有个体或数据的离散程度,即数据与均值的偏离程度。例如,某城市所有居民收入的方差。
  • 总体标准差 σ \sigma σ:总体方差的平方根,描述数据的离散程度。例如,某城市所有居民收入的标准差。
  • 总体比例 p p p:描述总体中具有某种特征的个体所占的比例。例如,某城市中支持某个候选人的居民比例。

在这里插入图片描述
在这里插入图片描述

在统计推断中,估计量和估计值是两个重要的概念,用于从样本数据中推断总体参数。它们在统计分析中扮演着关键角色。下面详细解释这两个概念。
估计量(Estimator):估计量是一个统计量,用于从样本数据中估计总体参数。它是一个随机变量,因为它依赖于随机抽取的样本。估计量通常用大写字母表示,如 θ ^ \hat{\theta} θ^ X ^ \hat{X} X^

  • 估计量的特性

    • 无偏性:一个估计量 θ ^ \hat{\theta} θ^ 是无偏的,如果其期望值等于被估计的总体参数 θ \theta θ,即 E ( θ ^ ) = θ E(\hat{\theta}) = \theta E(θ^)=θ
    • 一致性:一个估计量 θ ^ \hat{\theta} θ^是一致的,如果随着样本量 n 的增加, θ ^ \hat{\theta} θ^收敛于被估计的总体参数 θ \theta θ
    • 有效性:在所有无偏估计量中,具有最小方差的估计量称为有效估计量。
  • 常见的估计量

    • 样本均值 X ˉ \bar{X} Xˉ:用于估计总体均值 μ \mu μ X ˉ = 1 n ∑ i = 1 n X i \bar{X} = \frac{1}{n} \sum_{i=1}^{n} X_i Xˉ=n1i=1nXi
    • 样本方差 S 2 S^2 S2:用于估计总体方差 σ 2 \sigma^2 σ2 S 2 = 1 n − 1 ∑ i = 1 n ( X i − X ˉ ) 2 S^2 = \frac{1}{n-1} \sum_{i=1}^{n} (X_i - \bar{X})^2 S2=n11i=1n(XiXˉ)2
    • 样本比例 p ^ \hat{p} p^:用于估计总体比例 p p p p ^ = x n \hat{p} = \frac{x}{n} p^=nx ,其中 x x x 是样本中具有某特征的个体数, n n n 是样本总数。
  • 估计值(Estimate):估计值是估计量在具体样本数据上的取值。它是一个具体的数值,用于作为总体参数的近似值。估计值通常用小写字母表示,如 θ ^ \hat{\theta} θ^ x ^ \hat{x} x^

  • 例子:假设我们有一个样本数据集,用于估计总体均值。

    • 估计量:样本均值 X ˉ \bar{X} Xˉ 是估计总体均值 μ \mu μ 的估计量。
    • 估计值:如果从样本数据中计算得到的样本均值为50,那么50就是估计值。

1.1 矩估计

矩估计(Method of Moments)是一种统计估计方法,用于从样本数据中估计总体参数。它基于样本矩与总体矩的关系,通过匹配样本矩和总体矩来推导出参数的估计值。矩估计法是一种简单而直观的估计方法,特别适用于一些复杂的分布。

矩估计:就是在某个分布下采样得到的采样的样本值求平均(样本均值)来近似估计这个分布下总体的期望。根据大数定律,采样的样本越多,其样本均值越接近于期望的真实值,即均值。

1.1.1 矩的定义

在统计学中,矩是描述数据分布特征的一种度量。常见的矩包括:

  1. 原点矩(Raw Moments)。k阶原点矩定义为: μ k ′ = E ( X k ) \mu'_k = E(X^k) μk=E(Xk),例如,第一阶原点矩是均值 E(X),第二阶原点矩是 E ( X 2 ) E(X^2) E(X2)
  2. 中心矩(Central Moments)。k阶中心矩定义为: μ k = E [ ( X − μ ) k ] \mu_k = E[(X - \mu)^k] μk=E[(Xμ)k]。例如,第一阶中心矩是0,第二阶中心矩是方差 V a r ( X ) = E [ ( X − μ ) 2 ] Var(X) = E[(X - \mu)^2] Var(X)=E[(Xμ)2]

1.1.2 矩估计法的步骤

矩估计法的基本思想是通过样本矩来估计总体矩,然后利用这些估计的总体矩来求解总体参数。具体步骤如下:

  1. 计算样本矩:从样本数据中计算样本矩。对于样本 X 1 , X 2 , … , X n {X_1, X_2, \ldots, X_n} X1,X2,,Xn,第 k阶样本矩定义为: m k = 1 n ∑ i = 1 n X i k m_k = \frac{1}{n} \sum_{i=1}^{n} X_i^k mk=n1i=1nXik
  2. 设定总体矩的表达式:根据总体分布的形式,写出总体矩的表达式。这些表达式通常是总体参数的函数。
  3. 匹配样本矩和总体矩:将样本矩等于总体矩的表达式,得到关于总体参数的方程组。
  4. 解方程组:解方程组,得到总体参数的估计值。

1.1.3 举例说明

假设我们有一个样本数据集,想要估计总体均值 μ \mu μ 和总体方差 σ 2 \sigma^2 σ2

  1. 计算样本矩:
    样本均值(第一阶原点矩): m 1 = 1 n ∑ i = 1 n X i m_1 = \frac{1}{n} \sum_{i=1}^{n} X_i m1=n1i=1nXi
    样本二阶矩(第二阶原点矩): m 2 = 1 n ∑ i = 1 n X i 2 m_2 = \frac{1}{n} \sum_{i=1}^{n} X_i^2 m2=n1i=1nXi2
  2. 设定总体矩的表达式:
    第一阶总体矩(均值): μ 1 = μ \mu_1 = \mu μ1=μ
    第二阶总体矩: μ 2 = μ 2 + σ 2 \mu_2 = \mu^2 + \sigma^2 μ2=μ2+σ2
  3. 匹配样本矩和总体矩,将样本矩等于总体矩:
    m 1 = μ m_1 = \mu m1=μ
    m 2 = μ 2 + σ 2 m_2 = \mu^2 + \sigma^2 m2=μ2+σ2
  4. 解方程组,得:
    μ = m 1 \mu=m_1 μ=m1
    σ 2 = m 2 − m 1 2 \sigma^2 = m_2 - m_1^2 σ2=m2m12
    因此,通过矩估计法,我们得到总体均值 μ \mu μ的估计值为样本均值 m 1 m_1 m1,总体方差 σ 2 \sigma^2 σ2 的估计值为 m 2 − m 1 2 m_2 - m_1^2 m2m12

1.1.4 矩估计法的优缺点

优点

  • 简单直观:矩估计法的计算过程相对简单,易于理解和实现。
  • 适用广泛:适用于各种分布,特别是一些复杂的分布。

缺点

  • 效率较低:在某些情况下,矩估计法的估计效率较低,可能不如最大似然估计(MLE)等方法。
  • 不一定无偏:矩估计法得到的估计量不一定是无偏的。

1.2 极大似然估计

极大似然估计(Maximum Likelihood Estimation,简称 MLE)是一种统计方法,用于从样本数据中估计总体参数。MLE 的基本思想是找到使得观测数据出现的概率(或似然)最大的参数值。它是一种广泛应用且非常有效的估计方法。

1.2.1 极大似然估计的步骤

设总体X属于离散型,假设我们有一个样本数据集 X 1 , X 2 , … , X n {X_1, X_2, \ldots, X_n} X1,X2,,Xn是来自总体X的样本,这些数据来自一个已知形式但参数未知的概率分布 P { X = x } = p ( x ; θ ) P\{X=x\}=p(x;\theta) P{X=x}=p(x;θ)。我们希望估计这个分布的参数 θ \theta θ

分布律 P { X = x i } = p ( x ; θ ) P\{X = x_i\} = p(x; \theta) P{X=xi}=p(x;θ) 表示离散型随机变量 X X X 在特定值 x i x_i xi 处的概率,并且这个概率是参数 θ \theta θ 的函数。这个表达式描述了随机变量 X X X 的概率分布特征,参数 θ \theta θ 则描述了分布的具体形态。通过了解分布律和概率质量函数,我们可以更好地分析和处理离散型随机变量的概率分布。

  1. 似然函数(Likelihood Function):
    似然函数 L ( θ ) L(\theta) L(θ)表示在给定参数 θ \theta θ下,观测到样本数据的概率。
    对于独立同分布的样本,似然函数通常表示为各个样本点概率的乘积: L ( θ ) = P ( X 1 , X 2 , … , X n ∣ θ ) = ∏ i = 1 n f ( X i ∣ θ ) L(\theta) = P(X_1, X_2, \ldots, X_n \mid \theta) = \prod_{i=1}^{n} f(X_i \mid \theta) L(θ)=P(X1,X2,,Xnθ)=i=1nf(Xiθ)
    其中, f ( X i ∣ θ ) f(X_i \mid \theta) f(Xiθ) 是样本点 X i X_i Xi在参数 θ \theta θ下的概率密度函数或概率质量函数。

    对于独立同分布(i.i.d.)的样本,似然函数通常表示为各个样本点概率的乘积,这与联合分布律有直接关系

    概率质量函数(Probability Mass Function, PMF):用于描述离散型随机变量的概率分布。对于一个离散型随机变量 X X X,PMF 给出了 X X X 取特定值 x x x 的概率 p ( x ) = P ( X = x ) p(x) = P(X = x) p(x)=P(X=x)
    概率密度函数(Probability Density Function, PDF):概率密度函数PDF用于描述连续型随机变量的概率分布。对于一个连续型随机变量 X X X,PDF 描述了 X X X 在某个特定值 x x x 处的概率密度。对于任意区间 [ a , b ] [a, b] [a,b],随机变量 X X X 落在这个区间内的概率可以通过积分计算: P ( a ≤ X ≤ b ) = ∫ a b f ( x ) d x P(a \leq X \leq b) = \int_{a}^{b} f(x) \text dx P(aXb)=abf(x)dx

  2. 对数似然函数(Log-Likelihood Function):
    为了简化计算,通常取似然函数的对数,得到对数似然函数: ℓ ( θ ) = log ⁡ L ( θ ) = ∑ i = 1 n log ⁡ f ( X i ∣ θ ) \ell(\theta) = \log L(\theta) = \sum_{i=1}^{n} \log f(X_i \mid \theta) (θ)=logL(θ)=i=1nlogf(Xiθ)

  3. 极大化对数似然函数:
    通过求解对数似然函数的最大值(通过求导,令导数=0,得到关于 θ \theta θ的方程,解方程),找到使得观测数据出现的概率最大的参数值 θ ^ \hat{\theta} θ^
    具体来说,极大似然估计量 θ ^ \hat{\theta} θ^ 是使对数似然函数达到最大值的参数值: θ ^ = arg ⁡ max ⁡ θ ℓ ( θ ) \hat{\theta} = \arg\max_{\theta} \ell(\theta) θ^=argmaxθ(θ)

1.2.2 例子

有一个装有红球和蓝球的盒子,但不知道盒子里红球和蓝球的比例,也不知道盒子里总共有多少个球。假设某一次摸出了10个球,其中有7个红球和3个蓝球,那么如何估计红球的比例。

由于每次摸球是独立的,联合概率可以表示为各个样本点概率的乘积: L ( p ) = P ( X 1 , X 2 , … , X 10 ∣ p ) = ∏ i = 1 10 P ( X i ∣ p ) L(p) = P(X_1, X_2, \ldots, X_{10} \mid p) = \prod_{i=1}^{10} P(X_i \mid p) L(p)=P(X1,X2,,X10p)=i=110P(Xip)
具体来说,似然函数为: L ( p ) = p 7 ( 1 − p ) 3 L(p) = p^7 (1 - p)^3 L(p)=p7(1p)3

为了简化计算,取似然函数的对数,得到对数似然函数:
ℓ ( p ) = log ⁡ L ( p ) = log ⁡ ( p 7 ( 1 − p ) 3 ) \ell(p) = \log L(p) = \log \left( p^7 (1 - p)^3 \right) (p)=logL(p)=log(p7(1p)3)
ℓ ( p ) = 7 log ⁡ p + 3 log ⁡ ( 1 − p ) \ell(p) = 7 \log p + 3 \log (1 - p) (p)=7logp+3log(1p)

极大化对数似然函数:
求导:
d ℓ ( p ) d p = 7 p − 3 1 − p \frac{d\ell(p)}{dp} = \frac{7}{p} - \frac{3}{1 - p} dpd(p)=p71p3
设导数为零:
7 p − 3 1 − p = 0 \frac{7}{p} - \frac{3}{1 - p} = 0 p71p3=0
解方程:

7 p = 3 1 − p \displaystyle \frac{7}{p} = \frac{3}{1 - p} p7=1p3
7 ( 1 − p ) = 3 p 7(1 - p) = 3p 7(1p)=3p
7 − 7 p = 3 p 7 - 7p = 3p 77p=3p
7 = 10 p 7 = 10p 7=10p
p = 7 10 p = \frac{7}{10} p=107

因此,红球比例 p p p的极大似然估计值为: p ^ = 7 10 = 0.7 \hat{p} = \frac{7}{10} = 0.7 p^=107=0.7

1.2.3 极大似然估计基本思想

用一句话总结极大似然估计的思想:当一件事情已经发生,则有理由认为该事件发生的概率较大。如有一个装有红球和蓝球的盒子,但不知道盒子里红球和蓝球的比例,也不知道盒子里总共有多少个球。若摸一次球,摸出了n=10个球,其中有k=7个红球和3个蓝球,则有理由认为盒子中红球比蓝球多,且摸到红球的改率为0.7。

通过这个摸球的例子,我们可以看到极大似然估计的基本思想:在已知样本数据(摸出的球的颜色)的情况下,选择使得观测数据出现的概率(或似然)最大的参数值(红球的比例 p p p)。具体来说,我们通过最大化似然函数或对数似然函数,找到了红球比例的估计值 p ^ = k n \hat{p} = \frac{k}{n} p^=nk,即红球数量占总摸球数量的比例。

2 区间估计

点估计通常通过简单的公式计算得到,如样本均值、样本方差等,点估计提供一个具体的数值,易于理解和解释。但是没有反映出估计的不确定性,可能存在系统性偏差,不能完全反映总体参数的真实值。区间估计不仅提供了一个估计值,还提供了一个范围,使得我们可以更全面地了解总体参数的可能取值,使得估计更加可靠。

区间估计通过置信区间提供了一个范围,使得我们可以了解估计值的可靠性。例如,假设我们估计某个城市的平均收入为50000元。如果我们只提供这个点估计值,无法知道这个估计值的准确性。而通过区间估计,我们可以提供一个置信区间,如(48000元, 52000元),表示我们有95%的把握认为城市的平均收入在这个范围内。

举个例子:比如你想知道全国所有中学生的平均身高,你不可能去测量每一个学生的身高,因此采取了随机抽样的方式,用样本去预估去全国所有中学生的身高。假设你随机抽取了100名学生,其平均身高为150cm,方差为25。

  • 如果你用100个样本的平均值得出全国中学生的平均身高是150cm,这就是点估计,150cm就是点估计量(根据中心极限定理,样本的均值和总体的均值是相似的)。
  • 如果你不想用样本的一个平均值去估计整体的平均值(比如150cm),而是用一个区间去估计(比如140-155cm),这就叫区间估计。区间估计相比点估计留有更大的容错空间。
    • 区间的范围很大,你可以预测身高是149-151cm之间,也可以预测是140-160cm之间,也可以是其他。但你会看到,前者相比后者预测准确的概率更低,因为其预测的区间范围太窄;而后者预测准确的概率更高,因为其预测的区间范围更宽。所以,具体如何确定估计的范围(也就是置信区间)取决于你对预估结果准确概率的要求(也就是置信水平)。如果你希望结果准确的概率更高,那么区间的范围(置信区间)就设置的越宽;如果置信水平越低,置信区间就设置的越窄。

很显然区间估计的命中率会更高(当然费用会更高,因为风险降低了)。

虽然点估计可以提供一个具体的数值来估计总体参数,但区间估计提供了更多的信息,特别是关于估计的不确定性。区间估计通过置信区间提供了估计值的范围,使得我们可以更全面地了解总体参数的可能取值,提高决策的可靠性。因此,在统计推断中,区间估计是点估计的重要补充,提供了更加完整和可靠的估计信息。

以上用规范的语言表达就是:
对于一个未知量,人们在测量或计算时,常不以得到近似值为满足,还需估计误差,即要求知道近似值的精确程度(亦即所求真值所在的范围)。类似地,对于未知参数 θ \theta θ,除了求出它的点估计 θ ^ \hat{\theta} θ^外,我们还希望估计出一个范围,并希望知道这个范围包含参数 θ \theta θ真值的可信程度。这样的范围通常以区间的形式给出,同时还给出此区间包含参数 θ \theta θ真值的可信程度。这种形式的估计称为区间估计,这样的区间即所谓置信区间。

  • https://blog.csdn.net/weixin_46490424/article/details/105220826
Logo

开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!

更多推荐