克拉美罗下界实际上是对无偏估计量给出了方差的下界,也就是说,只要你使用无偏估计,方差一定大于等于CRLB,在满足某些条件的时候可以等于。但是要注意,方差大于CRLB的条件一定是无偏估计,如果是有偏估计方差是可以更小的,比如说最大似然法,贝叶斯估计等。

正则条件:

E [ ∂ ln ⁡ p ( x ; θ ) ∂ θ ] = 0 E\left[\frac{\partial \ln p(\mathbf{x} ; \theta)}{\partial \theta}\right]=0 E[θlnp(x;θ)]=0 对于任意的 θ \theta θ, x 的PDF都满足

那么这个正则条件说明了什么,又是怎么的出来的呢?

推导:
E [ ∂ ln ⁡ p ( x ; θ ) ∂ θ ] = ∫ ∂ ln ⁡ p ( x ; θ ) ∂ θ p ( x ; θ ) d x = ∫ ∂ p ( x ; θ ) ∂ θ d x = ∂ ∂ θ ∫ p ( x ; θ ) d x = ∂ 1 ∂ θ = 0 \begin{aligned}E\left[\frac{\partial \ln p(\mathbf{x} ; \theta)}{\partial \theta}\right]= \int \frac{\partial \ln p(\mathbf{x} ; \theta)}{\partial \theta} p(\mathbf{x} ; \theta) d \mathbf{x} &=\int \frac{\partial p(\mathbf{x} ; \theta)}{\partial \theta} d \mathbf{x} \\ &=\frac{\partial}{\partial \theta} \int p(\mathbf{x} ; \theta) d \mathbf{x} \\ &=\frac{\partial 1}{\partial \theta} \\ &=0 \end{aligned} E[θlnp(x;θ)]=θlnp(x;θ)p(x;θ)dx=θp(x;θ)dx=θp(x;θ)dx=θ1=0
求期望实际上就是对x求积分,所以左边两个表达式相等,注意这个概念,很多地方都需要这样来化简期望的。乍一看好像所有的PDF都应该满足上面的正则表达式才对,其实不是的,我们在运算的过程中忽略了一个很重要的前提——求偏导和积分可以互换,这就是正则条件的核心。这说明了x的PDF非零边界是和 θ \theta θ 无关的,也就是积分上下限不含 θ \theta θ,举个例子, U [ − θ , θ ] U[-\theta,\theta] U[θ,θ]很明显就不满足正则条件,因为此时积分和求偏导的顺序不可以交换。

CRLB结论:

var ⁡ ( θ ^ ) ⩾ 1 − E [ ∂ 2 ln ⁡ p ( x ; θ ) ∂ θ 2 ] = 1 E [ ( ∂ ln ⁡ p ( x ; θ ) ∂ θ ) 2 ] \operatorname{var}(\hat{\theta}) \geqslant \frac{1}{-E\left[\frac{\partial^{2} \ln p(\mathbf{x} ; \theta)}{\partial \theta^{2}}\right]}=\frac{1}{E\left[\left(\frac{\partial \ln p(\mathbf{x} ; \theta)}{\partial \theta}\right)^{2}\right]} var(θ^)E[θ22lnp(x;θ)]1=E[(θlnp(x;θ))2]1

这就是CRLB的表达式,很简洁,指明了任意一个无偏估计的方差下界,你可能又要问,这个怎么来的,有什么用。作用呢,很简单,既然我们已经知道了任意的无偏估计量方差都要大于等于这下界,那我的目标就很明确,找到最接近下界的估计量(最好等于),这个估计量就是最佳的无偏估计量。

最佳无偏估计量 设为 g(x),则有:

∂ ln ⁡ p ( x ; θ ) ∂ θ = I ( θ ) ( g ( x ) − θ ) \frac{\partial \ln p(\mathbf{x} ; \theta)}{\partial \theta}=I(\theta)(g(\mathbf{x})-\theta) θlnp(x;θ)=I(θ)(g(x)θ)

这里的 I ( θ ) I(\theta) I(θ)就是我们在上面所求的 E [ ( ∂ ln ⁡ p ( x ; θ ) ∂ θ ) 2 ] E\left[\left(\frac{\partial \ln p(\mathbf{x} ; \theta)}{\partial \theta}\right)^{2}\right] E[(θlnp(x;θ))2]

这样的话,我们想要求最佳无偏估计量,只需要求 ∂ ln ⁡ p ( x ; θ ) ∂ θ \frac{\partial \ln p(\mathbf{x} ; \theta)}{\partial \theta} θlnp(x;θ), 然后将其化简成一个只含有 θ \theta θ I ( θ ) I(\theta) I(θ)乘上一个只含有x的函数与 θ \theta θ的差。

  • 证明 − E [ ∂ 2 ln ⁡ p ( x ; θ ) ∂ θ 2 ] = E [ ( ∂ ln ⁡ p ( x ; θ ) ∂ θ ) 2 ] -E\left[\frac{\partial^{2} \ln p(\mathbf{x} ; \theta)}{\partial \theta^{2}}\right]={E\left[\left(\frac{\partial \ln p(\mathbf{x} ; \theta)}{\partial \theta}\right)^{2}\right]} E[θ22lnp(x;θ)]=E[(θlnp(x;θ))2]
  • 由正则条件
    E [ ∂ ln ⁡ p ( x ; θ ) ∂ θ ] = 0 ∂ ln ⁡ p ( x ; θ ) ∂ θ p ( x ; θ ) d x = 0 ∂ ∂ θ ∫ ∂ ln ⁡ p ( x ; θ ) ∂ θ p ( x ; θ ) d x = 0 ∫ [ ∂ 2 ln ⁡ p ( x ; θ ) ∂ θ 2 p ( x ; θ ) + ∂ ln ⁡ p ( x ; θ ) ∂ θ ∂ p ( x ; θ ) ∂ θ ] d x = 0 \begin{aligned} E\left[\frac{\partial \ln p(\mathbf{x} ; \theta)}{\partial \theta}\right] &=0 \\ \frac{\partial \ln p(\mathbf{x} ; \theta)}{\partial \theta} p(\mathbf{x} ; \theta) d \mathbf{x} &=0 \\ \frac{\partial}{\partial \theta} \int \frac{\partial \ln p(\mathbf{x} ; \theta)}{\partial \theta} p(\mathbf{x} ; \theta) d \mathbf{x} &=0 \\ \int\left[\frac{\partial^{2} \ln p(\mathbf{x} ; \theta)}{\partial \theta^{2}} p(\mathbf{x} ; \theta)+\frac{\partial \ln p(\mathbf{x} ; \theta)}{\partial \theta} \frac{\partial p(\mathbf{x} ; \theta)}{\partial \theta}\right] d \mathbf{x} &=0 \end{aligned} E[θlnp(x;θ)]θlnp(x;θ)p(x;θ)dxθθlnp(x;θ)p(x;θ)dx[θ22lnp(x;θ)p(x;θ)+θlnp(x;θ)θp(x;θ)]dx=0=0=0=0
    即:
    − E [ ∂ 2 ln ⁡ p ( x ; θ ) ∂ θ 2 ] = ∫ ∂ ln ⁡ p ( x ; θ ) ∂ θ ∂ ln ⁡ p ( x ; θ ) ∂ θ p ( x ; θ ) d x = E [ ( ∂ ln ⁡ p ( x ; θ ) ∂ θ ) 2 ] \begin{aligned}-E\left[\frac{\partial^{2} \ln p(\mathbf{x} ; \theta)}{\partial \theta^{2}}\right] &=\int \frac{\partial \ln p(\mathbf{x} ; \theta)}{\partial \theta} \frac{\partial \ln p(\mathbf{x} ; \theta)}{\partial \theta} p(\mathbf{x} ; \theta) d \mathbf{x} \\ &=E\left[\left(\frac{\partial \ln p(\mathbf{x} ; \theta)}{\partial \theta}\right)^{2}\right] \end{aligned} E[θ22lnp(x;θ)]=θlnp(x;θ)θlnp(x;θ)p(x;θ)dx=E[(θlnp(x;θ))2]

证明 var ⁡ ( α ^ ) ⩾ ( ∂ g ( θ ) ∂ θ ) 2 − E [ ∂ 2 ln ⁡ p ( x ; θ ) ∂ θ 2 ] \operatorname{var}(\hat{\alpha}) \geqslant \frac{\left(\frac{\partial g(\theta)}{\partial \theta}\right)^{2}}{-E\left[\frac{\partial^{2} \ln p(\mathbf{x} ; \theta)}{\partial \theta^{2}}\right]} var(α^)E[θ22lnp(x;θ)](θg(θ))2
你可能不明白为什么在上面我们看到的CRLB明明分子是1,这里就变成了一阶偏导的平方。其实这是因为最开始估计的是 θ \theta θ,但是这里估计的是 θ \theta θ的函数 g ( θ ) g(\theta) g(θ),如果你令 g ( θ ) g(\theta) g(θ)= θ \theta θ,上面是不是变成了1 ?现在这个式子更符合一般情况明白了吧。

-假设我们要估计 α \alpha α α \alpha α θ \theta θ的函数,我们用 g ( θ ) g(\theta) g(θ)表示,由于是无偏估计,那么估计量 α ^ \hat{\alpha} α^的均值等于 α \alpha α,即有:

E ( α ^ ) = α = g ( θ ) E(\hat{\alpha})=\alpha=g(\theta) E(α^)=α=g(θ)

等同于:
∫ α ^ p ( x ; θ ) d x = g ( θ ) \int \hat{\alpha} p(\mathbf{x} ; \theta) d \mathbf{x}=g(\theta) α^p(x;θ)dx=g(θ) (1)

再看正则条件: E [ ∂ ln ⁡ p ( x ; θ ) ∂ θ ] = 0 E\left[\frac{\partial \ln p(\mathbf{x} ; \theta)}{\partial \theta}\right]=0 E[θlnp(x;θ)]=0
等同于:
∫ ∂ ln ⁡ p ( x ; θ ) ∂ θ p ( x ; θ ) d x = 0 \int \frac{\partial \ln p(\mathbf{x} ; \theta)}{\partial \theta} p(\mathbf{x} ; \theta) d \mathbf{x}=0 θlnp(x;θ)p(x;θ)dx=0

两边同时乘以待估参数 α \alpha α得: ∫ α ∂ ln ⁡ p ( x ; θ ) ∂ θ p ( x ; θ ) d x = α E [ ∂ ln ⁡ p ( x ; θ ) ∂ θ ] = 0 \int \alpha \frac{\partial \ln p(\mathbf{x} ; \boldsymbol{\theta})}{\partial \boldsymbol{\theta}} p(\mathbf{x} ; \theta) d \mathbf{x}=\alpha E\left[\frac{\partial \ln p(\mathbf{x} ; \boldsymbol{\theta})}{\partial \boldsymbol{\theta}}\right]=0 αθlnp(x;θ)p(x;θ)dx=αE[θlnp(x;θ)]=0 (2)
(1)(2)两式相减得到:

∫ ( α ^ − α ) ∂ ln ⁡ p ( x ; θ ) ∂ θ p ( x ; θ ) d x = ∂ g ( θ ) ∂ θ \int(\hat{\alpha}-\alpha) \frac{\partial \ln p(\mathbf{x} ; \theta)}{\partial \theta} p(\mathbf{x} ; \theta) d \mathbf{x}=\frac{\partial g(\theta)}{\partial \theta} (α^α)θlnp(x;θ)p(x;θ)dx=θg(θ)
利用柯西不等式

[ ∫ w ( x ) g ( x ) h ( x ) d x ] 2 ⩽ ∫ w ( x ) g 2 ( x ) d x ∫ w ( x ) h 2 ( x ) d x \left[\int w(\mathbf{x}) g(\mathbf{x}) h(\mathbf{x}) d \mathbf{x}\right]^{2} \leqslant \int w(\mathbf{x}) g^{2}(\mathbf{x}) d \mathbf{x} \int w(\mathbf{x}) h^{2}(\mathbf{x}) d \mathbf{x} [w(x)g(x)h(x)dx]2w(x)g2(x)dxw(x)h2(x)dx

w ( x ) = p ( x ; θ ) w(\mathbf{x})=p(\mathbf{x} ; \theta) w(x)=p(x;θ) g ( x ) = α ^ − α g(\mathbf{x})=\hat{\boldsymbol{\alpha}}-\alpha g(x)=α^α h ( x ) = ∂ ln ⁡ p ( x ; θ ) ∂ θ h(\mathbf{x})=\frac{\partial \ln p(\mathbf{x} ; \theta)}{\partial \theta} h(x)=θlnp(x;θ)
可以得到:
( ∂ g ( θ ) ∂ θ ) 2 ⩽ ∫ ( α ^ − α ) 2 p ( x ; θ ) d x ∫ ( ∂ ln ⁡ p ( x ; θ ) ∂ θ ) 2 p ( x ; θ ) d x \left(\frac{\partial g(\theta)}{\partial \theta}\right)^{2} \leqslant \int(\hat{\alpha}-\alpha)^{2} p(\mathbf{x} ; \theta) d \mathbf{x} \int\left(\frac{\partial \ln p(\mathbf{x} ; \theta)}{\partial \theta}\right)^{2} p(\mathbf{x} ; \theta) d \mathbf{x} (θg(θ))2(α^α)2p(x;θ)dx(θlnp(x;θ))2p(x;θ)dx
其中 ∫ ( α ^ − α ) 2 p ( x ; θ ) d x \int(\hat{\alpha}-\alpha)^{2} p(\mathbf{x} ; \theta) d \mathbf{x} (α^α)2p(x;θ)dx为方差, ∫ ( ∂ ln ⁡ p ( x ; θ ) ∂ θ ) 2 p ( x ; θ ) d x = E [ ( ∂ ln ⁡ p ( x ; θ ) ∂ θ ) 2 ] = − E [ ∂ 2 ln ⁡ p ( x ; θ ) ∂ θ 2 ] \int\left(\frac{\partial \ln p(\mathbf{x} ; \theta)}{\partial \theta}\right)^{2} p(\mathbf{x} ; \theta) d \mathbf{x}=E\left[\left(\frac{\partial \ln p(\mathbf{x} ; \theta)}{\partial \theta}\right)^{2}\right]=-E\left[\frac{\partial^{2} \ln p(\mathbf{x} ; \theta)}{\partial \theta^{2}}\right] (θlnp(x;θ))2p(x;θ)dx=E[(θlnp(x;θ))2]=E[θ22lnp(x;θ)]

化简有:

var ⁡ ( θ ^ ) ⩾ ( ∂ g ( θ ) ∂ θ ) 2 − E [ ∂ 2 ln ⁡ p ( x ; θ ) ∂ θ 2 ] = ( ∂ g ( θ ) ∂ θ ) 2 E [ ( ∂ ln ⁡ p ( x ; θ ) ∂ θ ) 2 ] \operatorname{var}(\hat{\theta}) \geqslant \frac{\left(\frac{\partial g(\theta)}{\partial \theta}\right)^{2}}{-E\left[\frac{\partial^{2} \ln p(\mathbf{x} ; \theta)}{\partial \theta^{2}}\right]}=\frac{\left(\frac{\partial g(\theta)}{\partial \theta}\right)^{2}}{E\left[\left(\frac{\partial \ln p(\mathbf{x} ; \theta)}{\partial \theta}\right)^{2}\right]} var(θ^)E[θ22lnp(x;θ)](θg(θ))2=E[(θlnp(x;θ))2](θg(θ))2

等号成立的条件是: ∂ ln ⁡ p ( x ; θ ) ∂ θ = 1 c ( θ ) ( θ ^ − θ ) \frac{\partial \ln p(\mathbf{x} ; \theta)}{\partial \theta}=\frac{1}{\mathrm{c}(\theta)}(\hat{\theta}-\theta) θlnp(x;θ)=c(θ)1(θ^θ)
这个等式是想说明达到下界的估计量满足什么样的条件,就是使上式成立, θ ^ \hat{\theta} θ^表示估计量。

公式太难打了,我就解释标量了,矢量更复杂。

Logo

开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!

更多推荐