参数估计方法：利用样本统计量估计总体统计量

在统计学中，矩是描述数据分布特征的一种度量。原点矩（Raw Moments）。k阶原点矩定义为：μk′EXkμk′EXk，例如，第一阶原点矩是均值 E(X)，第二阶原点矩是EX2E(X^2)EX2。中心矩（Central Moments）。k阶中心矩定义为：μkEX−μkμkE[(X−μk。例如，第一阶中心矩是0，第二阶中心矩是方差VarXEX−μ2VarXE[(X−μ2。

1111

1530人浏览 · 2024-07-23 16:05:06

1111 · 2024-07-23 16:05:06 发布

参数估计方法

1 点估计
2 区间估计

在统计学中，由于大多数情况下难以获得总体的情况（往往已知总体服从某种分布，但是不知道分布的参数），所以人们通常选择通过样本去估计总体（因为我们可以抽样，通过样本的统计量估计总体的统计量）。统计量就是样本的数字特征，包括样本均值、样本方差、样本中心矩、样本原点矩等。

1 点估计

设总体X的分布函数形式已知，但它的一个或多个参数未知，借助于总体X的一个样本来估计总体未知参数的值的问题称为参数的点估计（Point Estimation）问题，也就是说，点估计是使用样本数据来估计总体参数的单一数值。点估计的结果是一个具体的数值，它是对未知总体参数的最佳猜测。点估计包括矩估计法和最大似然估计法。

总体参数（Population Parameter）：是指描述总体特征的数值。总体是指我们感兴趣的全部个体或数据的集合，而总体参数则是对这个集合的某个特征的度量。总体参数通常是未知的，我们通过样本数据来估计这些参数。
常见的总体参数：

总体均值 $\mu$ ：描述总体中所有个体或数据的平均值。例如，某城市所有居民的平均收入。
总体方差 $\sigma^2$ ：描述总体中所有个体或数据的离散程度，即数据与均值的偏离程度。例如，某城市所有居民收入的方差。
总体标准差 $\sigma$ ：总体方差的平方根，描述数据的离散程度。例如，某城市所有居民收入的标准差。
总体比例 $p$ ：描述总体中具有某种特征的个体所占的比例。例如，某城市中支持某个候选人的居民比例。

在这里插入图片描述

在统计推断中，估计量和估计值是两个重要的概念，用于从样本数据中推断总体参数。它们在统计分析中扮演着关键角色。下面详细解释这两个概念。
估计量（Estimator）：估计量是一个统计量，用于从样本数据中估计总体参数。它是一个随机变量，因为它依赖于随机抽取的样本。估计量通常用大写字母表示，如 $\hat{\theta}$ 或 $\hat{X}$ 。

估计量的特性

无偏性：一个估计量 $\hat{\theta}$ 是无偏的，如果其期望值等于被估计的总体参数 $\theta$ ，即 $E(\hat{\theta}) = \theta$ 。
一致性：一个估计量 $\hat{\theta}$ 是一致的，如果随着样本量 n 的增加， $\hat{\theta}$ 收敛于被估计的总体参数 $\theta$ 。
有效性：在所有无偏估计量中，具有最小方差的估计量称为有效估计量。

常见的估计量

样本均值 $\bar{X}$ ：用于估计总体均值 $\mu$ 。 $\bar{X} = \frac{1}{n} \sum_{i=1}^{n} X_i$
样本方差 $S^2$ ：用于估计总体方差 $\sigma^2$ 。 $S^2 = \frac{1}{n-1} \sum_{i=1}^{n} (X_i - \bar{X})^2$
样本比例 $\hat{p}$ ：用于估计总体比例 $p$ 。 $\hat{p} = \frac{x}{n}$ ，其中 $x$ 是样本中具有某特征的个体数， $n$ 是样本总数。

估计值（Estimate）：估计值是估计量在具体样本数据上的取值。它是一个具体的数值，用于作为总体参数的近似值。估计值通常用小写字母表示，如 $\hat{\theta}$ 或 $\hat{x}$ 。

例子：假设我们有一个样本数据集，用于估计总体均值。

估计量：样本均值 $\bar{X}$ 是估计总体均值 $\mu$ 的估计量。
估计值：如果从样本数据中计算得到的样本均值为50，那么50就是估计值。

1.1 矩估计

矩估计（Method of Moments）是一种统计估计方法，用于从样本数据中估计总体参数。它基于样本矩与总体矩的关系，通过匹配样本矩和总体矩来推导出参数的估计值。矩估计法是一种简单而直观的估计方法，特别适用于一些复杂的分布。

矩估计：就是在某个分布下采样得到的采样的样本值求平均（样本均值）来近似估计这个分布下总体的期望。根据大数定律，采样的样本越多，其样本均值越接近于期望的真实值，即均值。

1.1.1 矩的定义

在统计学中，矩是描述数据分布特征的一种度量。常见的矩包括：

原点矩（Raw Moments）。k阶原点矩定义为： $\mu'_k = E(X^k)$ ，例如，第一阶原点矩是均值 E(X)，第二阶原点矩是 $E(X^2)$ 。
中心矩（Central Moments）。k阶中心矩定义为： $\mu_k = E[(X - \mu)^k]$ 。例如，第一阶中心矩是0，第二阶中心矩是方差 $\mu)^2]$ 。

1.1.2 矩估计法的步骤

矩估计法的基本思想是通过样本矩来估计总体矩，然后利用这些估计的总体矩来求解总体参数。具体步骤如下：

计算样本矩：从样本数据中计算样本矩。对于样本 ${X_1, X_2, \ldots, X_n}$ ，第 k阶样本矩定义为： $m_k = \frac{1}{n} \sum_{i=1}^{n} X_i^k$
设定总体矩的表达式：根据总体分布的形式，写出总体矩的表达式。这些表达式通常是总体参数的函数。
匹配样本矩和总体矩：将样本矩等于总体矩的表达式，得到关于总体参数的方程组。
解方程组：解方程组，得到总体参数的估计值。

1.1.3 举例说明

假设我们有一个样本数据集，想要估计总体均值 $\mu$ 和总体方差 $\sigma^2$

计算样本矩：
样本均值（第一阶原点矩）： $m_1 = \frac{1}{n} \sum_{i=1}^{n} X_i$
样本二阶矩（第二阶原点矩）： $m_2 = \frac{1}{n} \sum_{i=1}^{n} X_i^2$
设定总体矩的表达式：
第一阶总体矩（均值）： $\mu_1 = \mu$
第二阶总体矩： $\mu_2 = \mu^2 + \sigma^2$
匹配样本矩和总体矩，将样本矩等于总体矩：
$m_1 = \mu$
$m_2 = \mu^2 + \sigma^2$
解方程组，得：
$\mu=m_1$
$\sigma^2 = m_2 - m_1^2$
因此，通过矩估计法，我们得到总体均值 $\mu$ 的估计值为样本均值 $m_1$ ，总体方差 $\sigma^2$ 的估计值为 $m_2 - m_1^2$ 。

1.1.4 矩估计法的优缺点

优点

简单直观：矩估计法的计算过程相对简单，易于理解和实现。
适用广泛：适用于各种分布，特别是一些复杂的分布。

缺点

效率较低：在某些情况下，矩估计法的估计效率较低，可能不如最大似然估计（MLE）等方法。
不一定无偏：矩估计法得到的估计量不一定是无偏的。

1.2 极大似然估计

极大似然估计（Maximum Likelihood Estimation，简称 MLE）是一种统计方法，用于从样本数据中估计总体参数。MLE 的基本思想是找到使得观测数据出现的概率（或似然）最大的参数值。它是一种广泛应用且非常有效的估计方法。

1.2.1 极大似然估计的步骤

设总体X属于离散型，假设我们有一个样本数据集 ${X_1, X_2, \ldots, X_n}$ 是来自总体X的样本，这些数据来自一个已知形式但参数未知的概率分布 $P\{X=x\}=p(x;\theta)$ 。我们希望估计这个分布的参数 $\theta$ 。

分布律 $P\{X = x_i\} = p(x; \theta)$ 表示离散型随机变量 $X$ 在特定值 $x_i$ 处的概率，并且这个概率是参数 $\theta$ 的函数。这个表达式描述了随机变量 $X$ 的概率分布特征，参数 $\theta$ 则描述了分布的具体形态。通过了解分布律和概率质量函数，我们可以更好地分析和处理离散型随机变量的概率分布。

似然函数（Likelihood Function）：
似然函数 $L(\theta)$ 表示在给定参数 $\theta$ 下，观测到样本数据的概率。
对于独立同分布的样本，似然函数通常表示为各个样本点概率的乘积： $L(\theta) = P(X_1, X_2, \ldots, X_n \mid \theta) = \prod_{i=1}^{n} f(X_i \mid \theta)$
其中， $f(X_i \mid \theta)$ 是样本点 $X_i$ 在参数 $\theta$ 下的概率密度函数或概率质量函数。

对于独立同分布（i.i.d.）的样本，似然函数通常表示为各个样本点概率的乘积，这与联合分布律有直接关系

概率质量函数（Probability Mass Function, PMF）：用于描述离散型随机变量的概率分布。对于一个离散型随机变量 $X$ ，PMF 给出了 $X$ 取特定值 $x$ 的概率 $p (x) = P (X = x)$
概率密度函数（Probability Density Function, PDF）：概率密度函数PDF用于描述连续型随机变量的概率分布。对于一个连续型随机变量 $X$ ，PDF 描述了 $X$ 在某个特定值 $x$ 处的概率密度。对于任意区间 $[a, b]$ ，随机变量 $X$ 落在这个区间内的概率可以通过积分计算： $\leq X \leq b) = \int_{a}^{b} f(x) \text dx$
对数似然函数（Log-Likelihood Function）：
为了简化计算，通常取似然函数的对数，得到对数似然函数： $\ell(\theta) = \log L(\theta) = \sum_{i=1}^{n} \log f(X_i \mid \theta)$
极大化对数似然函数：
通过求解对数似然函数的最大值（通过求导，令导数=0，得到关于 $\theta$ 的方程，解方程），找到使得观测数据出现的概率最大的参数值 $\hat{\theta}$ 。
具体来说，极大似然估计量 $\hat{\theta}$ 是使对数似然函数达到最大值的参数值： $\hat{\theta} = \arg\max_{\theta} \ell(\theta)$

1.2.2 例子

有一个装有红球和蓝球的盒子，但不知道盒子里红球和蓝球的比例，也不知道盒子里总共有多少个球。假设某一次摸出了10个球，其中有7个红球和3个蓝球，那么如何估计红球的比例。

由于每次摸球是独立的，联合概率可以表示为各个样本点概率的乘积： $P(X_1, X_2, \ldots, X_{10} \mid p) = \prod_{i=1}^{10} P(X_i \mid p)$
具体来说，似然函数为： $L(p) = p^7 (1 - p)^3$

为了简化计算，取似然函数的对数，得到对数似然函数：
$\ell(p) = \log L(p) = \log \left( p^7 (1 - p)^3 \right)$
$\ell(p) = 7 \log p + 3 \log (1 - p)$

极大化对数似然函数：
求导：
$\frac{d\ell(p)}{dp} = \frac{7}{p} - \frac{3}{1 - p}$
设导数为零：
$\frac{7}{p} - \frac{3}{1 - p} = 0$
解方程：

$\displaystyle \frac{7}{p} = \frac{3}{1 - p}$
$7 (1 - p) = 3 p$
$7 - 7 p = 3 p$
$7 = 10 p$
$\frac{7}{10}$

因此，红球比例 $p$ 的极大似然估计值为： $\hat{p} = \frac{7}{10} = 0.7$

1.2.3 极大似然估计基本思想

用一句话总结极大似然估计的思想：当一件事情已经发生，则有理由认为该事件发生的概率较大。如有一个装有红球和蓝球的盒子，但不知道盒子里红球和蓝球的比例，也不知道盒子里总共有多少个球。若摸一次球，摸出了n=10个球，其中有k=7个红球和3个蓝球，则有理由认为盒子中红球比蓝球多，且摸到红球的改率为0.7。

通过这个摸球的例子，我们可以看到极大似然估计的基本思想：在已知样本数据（摸出的球的颜色）的情况下，选择使得观测数据出现的概率（或似然）最大的参数值（红球的比例 $p$ ）。具体来说，我们通过最大化似然函数或对数似然函数，找到了红球比例的估计值 $\hat{p} = \frac{k}{n}$ ，即红球数量占总摸球数量的比例。

2 区间估计

点估计通常通过简单的公式计算得到，如样本均值、样本方差等，点估计提供一个具体的数值，易于理解和解释。但是没有反映出估计的不确定性，可能存在系统性偏差，不能完全反映总体参数的真实值。区间估计不仅提供了一个估计值，还提供了一个范围，使得我们可以更全面地了解总体参数的可能取值，使得估计更加可靠。

区间估计通过置信区间提供了一个范围，使得我们可以了解估计值的可靠性。例如，假设我们估计某个城市的平均收入为50000元。如果我们只提供这个点估计值，无法知道这个估计值的准确性。而通过区间估计，我们可以提供一个置信区间，如（48000元, 52000元），表示我们有95%的把握认为城市的平均收入在这个范围内。

举个例子：比如你想知道全国所有中学生的平均身高，你不可能去测量每一个学生的身高，因此采取了随机抽样的方式，用样本去预估去全国所有中学生的身高。假设你随机抽取了100名学生，其平均身高为150cm，方差为25。

如果你用100个样本的平均值得出全国中学生的平均身高是150cm，这就是点估计，150cm就是点估计量（根据中心极限定理，样本的均值和总体的均值是相似的）。
如果你不想用样本的一个平均值去估计整体的平均值（比如150cm），而是用一个区间去估计（比如140-155cm），这就叫区间估计。区间估计相比点估计留有更大的容错空间。
区间的范围很大，你可以预测身高是149-151cm之间，也可以预测是140-160cm之间，也可以是其他。但你会看到，前者相比后者预测准确的概率更低，因为其预测的区间范围太窄；而后者预测准确的概率更高，因为其预测的区间范围更宽。所以，具体如何确定估计的范围（也就是置信区间）取决于你对预估结果准确概率的要求（也就是置信水平）。如果你希望结果准确的概率更高，那么区间的范围（置信区间）就设置的越宽；如果置信水平越低，置信区间就设置的越窄。

很显然区间估计的命中率会更高（当然费用会更高，因为风险降低了）。

虽然点估计可以提供一个具体的数值来估计总体参数，但区间估计提供了更多的信息，特别是关于估计的不确定性。区间估计通过置信区间提供了估计值的范围，使得我们可以更全面地了解总体参数的可能取值，提高决策的可靠性。因此，在统计推断中，区间估计是点估计的重要补充，提供了更加完整和可靠的估计信息。

以上用规范的语言表达就是：
对于一个未知量，人们在测量或计算时，常不以得到近似值为满足，还需估计误差，即要求知道近似值的精确程度（亦即所求真值所在的范围）。类似地，对于未知参数 $\theta$ ，除了求出它的点估计 $\hat{\theta}$ 外，我们还希望估计出一个范围，并希望知道这个范围包含参数 $\theta$ 真值的可信程度。这样的范围通常以区间的形式给出，同时还给出此区间包含参数 $\theta$ 真值的可信程度。这种形式的估计称为区间估计，这样的区间即所谓置信区间。