由于课程需要,这段时间主要在学习《高等数理统计》(茆诗松等)的无信息先验部分的知识,这部分内容主要还是书中讲解的内容,但是会结合网上的一些资料以及自己的一些理解进行阐述。


贝叶斯统计

贝叶斯统计缘起于托马斯.贝叶斯(1702-1761),一位英国长老会牧师和业余数学家。在他去世后发表的论文“论有关机遇问题的求解”中, 贝叶斯定理的现代形式实际上归因于拉普拉斯(1812)。拉普拉斯重新发现了贝叶斯定理,并把它用来解决天体力学、医学甚至法学的问题。但自19世纪中叶起,随着频率学派(在下文有时也称作经典统计)的兴起,概率的贝叶斯解释逐渐被统计学主流所拒绝。

现代贝叶斯统计学的复兴肇始于Jeffreys(1939),在1950年代,经过Wald(1950),Savage(1954),Raiffic&Schlaifer(1961),Lindley(1972),De Finetti(1974)等人的努力,贝叶斯统计学逐渐发展壮大,并发展出了贝叶斯统计决策理论这个新分支。特别是到1990年代以后,随着计算方法MCMC在贝叶斯统计领域的广泛应用,解决了贝叶斯统计学长期存在的计算困难的问题,从而推动了贝叶斯统计在理论和应用领域的长足发展。(以上部分节选自网络)


无信息先验分布

通常在贝叶斯分析中,我们需要指定一个先验,但事实在很多前提下,我们是不知道其先验的,这时我们就可以采用无信息先验分布来进行分析计算。

首先我们来考虑:没有信息的场合如何确定先验分布?

  • 无信息先验分布
  • 与其它“主观”的先验相比更接近“客观”

后面我们将会介绍几种无信息先验分布:

  • Bayes 假设
  • 位置参数的无信息先验分布
  • 尺度参数的无信息先验分布
  • Jeffreys 先验分布

Bayes 假设

有以下几点:

  • “没有 θ \theta θ的任何信息” ⇒ \Rightarrow θ \theta θ取值范围上的均匀分布作为 θ \theta θ的先验分布。
  • “Bayes 假设”:均匀分布
  • 例如:如果参数空间 Θ = ( a , b ) \Theta = (a, b) Θ=(a,b),则可用 U ( a , b ) U(a, b) U(a,b)作为先验分布

由此我们引出一些问题:

  • Θ \Theta Θ为无限区间,无法定义一个正常的先验分布
  • Bayes 假设不满足变换下的不变性

这里我们由一个例子来引出广义先验分布的概念:

设总体 X ∼ N ( θ , 1 ) X \sim N(\theta, 1) XN(θ,1),其中 θ ∈ ( − ∞ , ∞ ) = Θ \theta \in (-\infty, \infty) = \Theta θ(,)=Θ,若对 θ \theta θ既无任何信息,也无偏爱,则应取如下均匀分布:
π ( θ ) = c ,       − ∞ < θ < ∞ \pi(\theta) = c, \ \ \ \ \ -\infty<\theta<\infty π(θ)=c,     <θ<
不是一个正常的概率密度函数。按Bayes公式计算:
π ( θ ∣ x ) = h ( x , θ ) m ( x ) = p ( x ∣ θ ) π ( θ ) ∫ − ∞ ∞ p ( x ∣ θ ) π ( θ ) d θ = 1 2 π e x p { − 1 2 ( θ − x ) 2 } \begin{aligned} \pi(\theta|x)&=\frac{h(x, \theta)}{m(x)}=\frac{p(x|\theta)\pi(\theta)}{\int_{-\infty}^{\infty}p(x|\theta)\pi(\theta)d\theta}\\ &=\frac{1}{\sqrt{2\pi}}exp\left\lbrace -\frac{1}{2}(\theta-x)^2 \right\rbrace \end{aligned} π(θx)=m(x)h(x,θ)=p(xθ)π(θ)dθp(xθ)π(θ)=2π 1exp{21(θx)2}

此时,给定 x x x下, θ \theta θ的后验分布为 N ( x , 1 ) N(x, 1) N(x,1)

下面我们给出广义先验分布的具体定义:

设总体 X ∼ p ( x ∣ θ ) , θ ∈ Θ X \sim p(x|\theta), \theta \in \Theta Xp(xθ),θΘ,若满足下列条件

  • π ( θ ) > 0 \pi(\theta)>0 π(θ)>0 ∫ Θ π ( θ ) d θ \int_{\Theta}\pi(\theta)d\theta Θπ(θ)dθ
  • 由此决定的后验密度 π ( θ ∣ x ) \pi(\theta|x) π(θx)是正常的密度函数。
    则称 π ( θ ) \pi(\theta) π(θ) θ \theta θ广义先验密度

前面例子中给出的 π ( θ ) = c \pi(\theta) = c π(θ)=c就是正态均值 θ \theta θ的一个广义先验分布。常选用 π ( θ ) = 1 \pi(\theta) = 1 π(θ)=1

但这样做会有一些问题,比如:很多时候Bayes假设都不满足变换下的不变性。

  • 正态总体 N ( 0 , σ 2 ) N(0,\sigma^2) N(0,σ2):方差 σ 2 \sigma^2 σ2,标准差 σ \sigma σ,均在 ( 0 , ∞ ) (0,\infty) (0,)上取值
  • σ \sigma σ的先验分布为 π ( σ ) \pi(\sigma) π(σ)
  • η = σ 2 \eta = \sigma^2 η=σ2的分布为:

π ( η ) ∣ d σ d η ∣ = π ( η ) / ( 2 η ) \pi(\sqrt{\eta})\left|\frac{d\sigma}{d\eta}\right| = \pi(\sqrt{\eta})/(2\sqrt{\eta}) π(η )dηdσ=π(η )/(2η )

σ \sigma σ的无信息先验分布为常数,那么 η = σ 2 \eta = \sigma^2 η=σ2的无信息先验密度应与 η − 1 / 2 \eta^{-1/2} η1/2成比例。与Bayes假设矛盾。


位置参数的无信息先验分布

设总体 X X X的密度函数具有形式 p ( x − θ ) p(x-\theta) p(xθ) θ \theta θ称为位置参数,参数空间与样本空间均为 R \mathbb{R} R

  • Y = X + c Y=X+c Y=X+c
  • η = θ + c \eta = \theta+c η=θ+c

Y Y Y的密度为 p ( y − η ) p(y-\eta) p(yη),同样是位置参数族成员。 η \eta η θ \theta θ应具有相同分布。(位置变换下保持不变)所以应该有相同的无信息先验分布:
π ( τ ) = π ∗ ( τ ) \pi(\tau)=\pi^*(\tau) π(τ)=π(τ)
另一方面,由 η = θ + c \eta = \theta+c η=θ+c,可计算 η \eta η的无信息先验密度为:
π ∗ ( η ) = ∣ d θ d η ∣ π ( η − c ) = π ( η − c ) \pi^*(\eta) = \left|\frac{d\theta}{d\eta}\right| \pi(\eta - c) = \pi(\eta - c) π(η)=dηdθπ(ηc)=π(ηc)
⇒ π ( η ) = π ( η − c ) \Rightarrow \pi(\eta) = \pi(\eta - c) π(η)=π(ηc)
由于 η \eta η c c c的任意性, θ \theta θ的无信息先验分布 π ( θ ) \pi (\theta) π(θ)为一个常数,取其为1。位置参数在位移变换保持不变的无信息先验分布是 π ( θ ) = 1 \pi(\theta)=1 π(θ)=1,即Bayes假设。


尺度参数的无信息先验分布

设总体 X X X的密度函数具有形式 1 σ p ( x σ ) \dfrac{1}{\sigma} p(\dfrac{x}{\sigma}) σ1p(σx) σ \sigma σ称为尺度参数,参数空间为 R + \mathbb{R}^+ R+

  • Y = c X ( c > 0 ) Y=cX(c>0) Y=cX(c>0)
  • η = c θ \eta =c\theta η=cθ

Y Y Y的密度函数为 1 η p ( y η ) \dfrac{1}{\eta} p(\dfrac{y}{\eta}) η1p(ηy),同样是尺度参数族成员。同样也应该有相同的无信息先验分布:
π ( τ ) = π ∗ ( τ ) \pi(\tau)=\pi^*(\tau) π(τ)=π(τ)

另一方面,由 η = c θ \eta = c\theta η=cθ,可计算 η \eta η的无信息先验密度为:
π ∗ ( η ) = ∣ d θ d η ∣ π ( η c ) = 1 c π ( η c ) \pi^*(\eta) = \left|\frac{d\theta}{d\eta}\right| \pi(\frac{\eta}{c}) = \frac{1}{c} \pi(\frac{\eta}{c}) π(η)=dηdθπ(cη)=c1π(cη)
⇒ π ( η ) = 1 c π ( η c ) \Rightarrow \pi(\eta) = \frac{1}{c} \pi(\frac{\eta}{c}) π(η)=c1π(cη)
η = c \eta=c η=c,则有 π ( c ) = 1 c π ( 1 ) \pi(c) = \dfrac{1}{c}\pi(1) π(c)=c1π(1),为方便记,令 π ( 1 ) = 1 \pi(1) = 1 π(1)=1,则 σ \sigma σ的无信息先验分布为
π ( σ ) = 1 σ ,      σ > 0 \pi(\sigma) = \dfrac{1}{\sigma},\ \ \ \ \sigma>0 π(σ)=σ1,    σ>0

尺度参数在比例变换保持不变的无信息先验分布是 π ( θ ) = 1 σ \pi(\theta)=\dfrac{1}{\sigma} π(θ)=σ1。与参数为 1 σ \dfrac{1}{\sigma} σ1的指数分布 p ( x ∣ σ ) = 1 σ exp ⁡ { − x σ } p(x|\sigma) = \dfrac{1}{\sigma} \exp \left\lbrace -\dfrac{x}{\sigma} \right\rbrace p(xσ)=σ1exp{σx} 相结合,其后验密度为:
π ( σ ∣ x ) = h ( x , σ ) m ( x ) = p ( x ∣ σ ) π ( σ ) ∫ 0 ∞ p ( x ∣ σ ) π ( σ ) d σ = x σ 2 e x p { − x σ } \begin{aligned} \pi(\sigma|x)&=\frac{h(x, \sigma)}{m(x)}=\frac{p(x|\sigma)\pi(\sigma)}{\int_{0}^{\infty}p(x|\sigma)\pi(\sigma)d\sigma}\\ &= \dfrac{x}{\sigma^2}exp \left\lbrace -\dfrac{x}{\sigma} \right\rbrace \end{aligned} π(σx)=m(x)h(x,σ)=0p(xσ)π(σ)dσp(xσ)π(σ)=σ2xexp{σx}
倒Gamma分布的概率密度函数:
p ( x ; α , β ) = β α Γ ( α ) x − α − 1 exp ⁡ ( − β x ) , α > 0 , β > 0 p(x;\alpha ,\beta )={\frac {\beta ^{\alpha }}{\Gamma (\alpha )}}x^{-\alpha -1}\exp \left(-{\frac {\beta }{x}}\right),\alpha>0,\beta>0 p(x;α,β)=Γ(α)βαxα1exp(xβ),α>0,β>0
即后验密度为正常概率密度函数,故上述无信息先验分布是尺度参数 σ \sigma σ的广义先验分布。


Jeffreys 先验分布

  • 1961年,Jeffreys在他的书里提出了Jeffreys 先验,其最主要性质就是不变性(invariant),即先验的形式不随着参数形式变化而变化。
  • 较好地解决了无信息先验中的一个矛盾:若对参数 θ \theta θ选用均匀分布,则其函数 g ( θ ) g(\theta) g(θ)往往不是均匀分布。
  • 采用Fisher信息阵的平方根作为 θ \theta θ的无信息先验分布。

其具体的计算过程如下:
x = ( x 1 , ⋯   , x n ) x = (x_1, \cdots, x_n) x=(x1,,xn)是来自密度函数 p ( x ∣ θ ) p(x|\theta) p(xθ)的一个样本,其中 θ = ( θ 1 , ⋯   , θ p ) \pmb{\theta} = (\theta_1, \cdots, \theta_p) θθθ=(θ1,,θp) p p p维参数向量。

  • 样本的对数似然函数 l ( θ ∣ x ) = ∑ i = 1 n ln  p ( x i ∣ θ ) l(\pmb{\theta} | x) = \sum_{i = 1}^n \text{ln}\ p(x_i | \theta) l(θθθx)=i=1nln p(xiθ)
  • 计算出参数 θ \pmb{\theta} θθθ的Fisher信息阵
    I ( θ ) = E x ∣ θ ( − ∂ 2 l ∂ θ i ∂ θ j ) i , j = 1 , ⋯   , p \mathbf{I}(\pmb{\theta})=E_{x|\theta}\left( -\dfrac{\partial^2 l}{\partial \theta_i \partial \theta_j} \right)_{i,j=1,\cdots, p} I(θθθ)=Exθ(θiθj2l)i,j=1,,p
    在单参数场合, I ( θ ) = E x ∣ θ ( − ∂ 2 l ∂ θ 2 ) \mathbf{I}(\theta)=E_{x|\theta}\left( -\dfrac{\partial^2 l}{\partial \theta^2} \right) I(θ)=Exθ(θ22l);
  • θ \pmb{\theta} θθθ的无信息先验密度函数为 π ( θ ) = [ det  I ( θ ) ] 1 / 2 \pi (\pmb{\theta}) = [\text{det}\ \mathbf{I}(\pmb{\theta})]^{1/2} π(θθθ)=[det I(θθθ)]1/2.在单参数场合, π ( θ ) = [ I ( θ ) ] 1 / 2 \pi (\pmb{\theta}) = [\mathbf{I}(\theta)]^{1/2} π(θθθ)=[I(θ)]1/2

下面我们具体说明Jeffreys 先验分布的不变性。


Jeffreys 先验分布的不变性

单参数情形:

φ ( θ ) \varphi(\theta) φ(θ) θ \theta θ的函数,已知: π ( θ ) ∝ I ( θ ) \pi(\theta )\propto {\sqrt {\mathbf{I}(\theta )}} π(θ)I(θ) ,考虑 π ( φ ) \pi(\varphi) π(φ)
π ( φ ) = π ( θ ) ∣ d θ d φ ∣ ∝ I ( θ ) ( d θ d φ ) 2 = E ⁡  ⁣ [ ( d ln ⁡ l d θ ) 2 ] ( d θ d φ ) 2 = E ⁡  ⁣ [ ( d ln ⁡ l d θ d θ d φ ) 2 ] = E ⁡  ⁣ [ ( d ln ⁡ l d φ ) 2 ] = I ( φ ) . \begin{aligned} \pi(\varphi )&=\pi(\theta )\left|{\frac {d\theta }{d\varphi }}\right|\\ &\propto {\sqrt {\mathbf{I}(\theta )\left({\frac {d\theta }{d\varphi }}\right)^{2}}}={\sqrt {\operatorname {E} \!\left[\left({\frac {d\ln l}{d\theta }}\right)^{2}\right]\left({\frac {d\theta }{d\varphi }}\right)^{2}}}\\ &={\sqrt {\operatorname {E} \!\left[\left({\frac {d\ln l}{d\theta }}{\frac {d\theta }{d\varphi }}\right)^{2}\right]}}={\sqrt {\operatorname {E} \!\left[\left({\frac {d\ln l}{d\varphi }}\right)^{2}\right]}}\\ &={\sqrt {\mathbf{I}(\varphi )}}. \end{aligned} π(φ)=π(θ)dφdθI(θ)(dφdθ)2 =E[(dθdlnl)2](dφdθ)2 =E[(dθdlnldφdθ)2] =E[(dφdlnl)2] =I(φ) .

多参数向量情形:

π ( φ ⃗ ) = π ( θ ⃗ ) ∣ det ⁡ ∂ θ i ∂ φ j ∣ ∝ det ⁡ I ( θ ⃗ )   det ⁡ 2 ∂ θ i ∂ φ j = det ⁡ ∂ θ k ∂ φ i   det ⁡ E ⁡  ⁣ [ ∂ ln ⁡ L ∂ θ k ∂ ln ⁡ L ∂ θ l ]   det ⁡ ∂ θ l ∂ φ j = det ⁡ E ⁡  ⁣ [ ∑ k , l ∂ θ k ∂ φ i ∂ ln ⁡ L ∂ θ k ∂ ln ⁡ L ∂ θ l ∂ θ l ∂ φ j ] = det ⁡ E ⁡  ⁣ [ ∂ ln ⁡ L ∂ φ i ∂ ln ⁡ L ∂ φ j ] = det ⁡ I ( φ ⃗ ) . \begin{aligned}\pi({\vec \varphi })&=\pi({\vec \theta })\left|\det {\frac {\partial \theta _{i}}{\partial \varphi _{j}}}\right|\\&\propto {\sqrt {\det I({\vec \theta })\,{\det }^{2}{\frac {\partial \theta _{i}}{\partial \varphi _{j}}}}}\\&={\sqrt {\det {\frac {\partial \theta _{k}}{\partial \varphi _{i}}}\,\det \operatorname {E}\!\left[{\frac {\partial \ln L}{\partial \theta _{k}}}{\frac {\partial \ln L}{\partial \theta _{l}}}\right]\,\det {\frac {\partial \theta _{l}}{\partial \varphi _{j}}}}}\\&={\sqrt {\det \operatorname {E}\!\left[\sum _{{k,l}}{\frac {\partial \theta _{k}}{\partial \varphi _{i}}}{\frac {\partial \ln L}{\partial \theta _{k}}}{\frac {\partial \ln L}{\partial \theta _{l}}}{\frac {\partial \theta _{l}}{\partial \varphi _{j}}}\right]}}\\&={\sqrt {\det \operatorname {E}\!\left[{\frac {\partial \ln L}{\partial \varphi _{i}}}{\frac {\partial \ln L}{\partial \varphi _{j}}}\right]}}={\sqrt {\det I({\vec \varphi })}}.\end{aligned} π(φ )=π(θ )detφjθidetI(θ )det2φjθi =detφiθkdetE[θklnLθllnL]detφjθl =detEk,lφiθkθklnLθllnLφjθl =detE[φilnLφjlnL] =detI(φ ) .


下面我们以一个例子来详细介绍Jeffreys 先验分布:

X = ( x 1 , ⋯   , x n ) X= (x_1, \cdots, x_n) X=(x1,,xn)来自正态总体 N ( μ , σ 2 ) N(\mu, \sigma^2) N(μ,σ2)的一个样本,现求参数向量 ( μ , σ ) (\mu, \sigma) (μ,σ)的Jeffreys 先验。

正态总体的对数似然函数
l ( μ , σ ) = − 1 2 ln ⁡ ( 2 π ) − n ln ⁡ σ − 1 2 σ 2 ∑ i = 1 n ( x i − μ ) 2 l(\mu, \sigma) = -\frac{1}{2}\ln(2\pi) - n \ln \sigma - \frac{1}{2\sigma^2}\sum_{i=1}^n(x_i - \mu)^2 l(μ,σ)=21ln(2π)nlnσ2σ21i=1n(xiμ)2
其Fisher信息阵为:
KaTeX parse error: No such environment: align* at position 8: \begin{̲a̲l̲i̲g̲n̲*̲}̲ \mathbf{I}(\mu…
因此 ( μ , σ ) (\mu, \sigma) (μ,σ)的Jeffreys 先验为
π ( μ , σ ) ∝ σ − 2 \pi(\mu, \sigma) \propto \sigma^{-2} π(μ,σ)σ2

根据上面的例子,我们可以发现几个特例:

  • σ \sigma σ已知时, I ( μ ) = − E ( − ∂ 2 l ∂ μ 2 ) = n / σ 2 I(\mu) = - \text{E}\left( -\dfrac{\partial^2 l}{\partial \mu^2} \right) = n/\sigma^2 I(μ)=E(μ22l)=n/σ2,故 π ( μ ) = 1 \pi(\mu)=1 π(μ)=1 μ ∈ R \mu \in \mathbb{R} μR
  • μ \mu μ已知时, I ( σ ) = − E ( − ∂ 2 l ∂ σ 2 ) = 2 n / σ 2 I(\sigma) = - \text{E}\left( -\dfrac{\partial^2 l}{\partial \sigma^2} \right) = 2n/\sigma^2 I(σ)=E(σ22l)=2n/σ2,故 π ( σ ) = 1 / σ \pi(\sigma)=1/\sigma π(σ)=1/σ σ ∈ R + \sigma \in \mathbb{R^+} σR+
  • μ \mu μ σ \sigma σ独立时, π ( μ , σ ) = π ( μ ) ∗ π ( σ ) = 1 / σ \pi(\mu, \sigma)=\pi(\mu) * \pi(\sigma)=1/\sigma π(μ,σ)=π(μ)π(σ)=1/σ μ ∈ R \mu \in \mathbb{R} μR σ ∈ R + \sigma \in \mathbb{R^+} σR+.

由此可见: μ \mu μ σ \sigma σ的无先验分布是不独立的。其有两种形式: σ − 1 \sigma^{-1} σ1 σ − 2 \sigma^{-2} σ2。Jeffreys最终推荐的形式是 σ − 1 \sigma^{-1} σ1,其实际表现效果也更加出色。

另外我们介绍一个二项分布的例子,设 θ \theta θ为成功概率,则在 n n n次独立试验中成功次数 X X X服从二项分布
P ( X = x ) = ( n x ) θ x ( 1 − θ ) n − x ,   x = 0 , 1 , ⋯   , n P(X = x) = \begin{pmatrix} n \\ x \end{pmatrix}\theta^x(1-\theta)^{n-x},\ x = 0, 1, \cdots, n P(X=x)=(nx)θx(1θ)nx, x=0,1,,n
在二项分布场合下,成功概率 θ \theta θ的Jeffreys 先验分布为
π ( θ ) ∝ θ − 1 / 2 ( 1 − θ ) − 1 / 2 ,   θ ∈ ( 0 , 1 ) \pi(\theta) \propto \theta^{-1/2}(1-\theta)^{-1/2},\ \theta \in (0, 1) π(θ)θ1/2(1θ)1/2, θ(0,1)

最后,关于成功概率 θ \theta θ的无信息先验分布,这里列出其中四种:
π 1 ( θ ) = 1 − Bayes(1763)和Laplace(1812)采用过 . π 2 ( θ ) = θ − 1 ( 1 − θ ) − 1 − Novick和Hall(1965)导出 . π 3 ( θ ) = θ − 1 / 2 ( 1 − θ ) − 1 / 2 − Jeffreys(1968)导出 . π 4 ( θ ) = θ θ ( 1 − θ ) 1 − θ − Zellner(1977)导出 . \begin{aligned} \pi_1(\theta) &= 1 &-\text{Bayes(1763)和Laplace(1812)采用过}&.\\ \pi_2(\theta) &= \theta^{-1}(1-\theta)^{-1} &-\text{Novick和Hall(1965)导出}&.\\ \pi_3(\theta) &= \theta^{-1/2}(1-\theta)^{-1/2} &-\text{Jeffreys(1968)导出}&.\\ \pi_4(\theta) &= \theta^{\theta}(1-\theta)^{1-\theta} &-\text{Zellner(1977)导出}&.\\ \end{aligned} π1(θ)π2(θ)π3(θ)π4(θ)=1=θ1(1θ)1=θ1/2(1θ)1/2=θθ(1θ)1θBayes(1763)Laplace(1812)采用过NovickHall(1965)导出Jeffreys(1968)导出Zellner(1977)导出....
π 1 \pi_1 π1是正常密度, π 2 \pi_2 π2是不正常密度, π 3 \pi_3 π3 π 4 \pi_4 π4正则化后是正常密度。

无信息先验不唯一,并且很少对结果产生重大影响,所以理论上任何无信息先验都可以采用。

Logo

瓜分20万奖金 获得内推名额 丰厚实物奖励 易参与易上手

更多推荐