概率笔记12——多维正态分布的最大似然估计
我们在前面的章节中见识过二维正态分布,(X,Y)服从参数为μ1, μ2, σ1, σ2, ρ的二维正态分布,记作(X, Y)~N(μ1, μ2, σ1, σ2, ρ),它的密度函数: 其中μ1是第1维度的均值,σ12是第1维度的方差,ρ是将两个维度的相关性规范到-1到+1之间的统计量,称为样本的相关系数,定义为: 对于二维正态随机变量(X,Y),X和Y相互独立的充要条件是二...
我们在前面的章节中见识过二维正态分布,(X,Y)服从参数为μ1, μ2, σ1, σ2, ρ的二维正态分布,记作(X, Y)~N(μ1, μ2, σ1, σ2, ρ),它的密度函数:
其中μ1是第1维度的均值,σ12是第1维度的方差,ρ是将两个维度的相关性规范到-1到+1之间的统计量,称为样本的相关系数,定义为:
对于二维正态随机变量(X,Y),X和Y相互独立的充要条件是二者的协方差为0,也就是参数ρ=0。由于一维随机变量没有是否独立一说,ρ一定是0,因此没有在一维随机变量的正态分布中体现ρ。
下图是一个标准二维正态分布和其在x-z,y-z平面的投影:
多维正态分布
现在推广到多维,为了便于表达,我们用向量的形式表示随机变量和参数,对于n维随机变量:
这里只考虑所有维度变量互相独立的情况,即ρ=0的情况,此时密度函数可表示为:
上面的结果告诉我们,在各维度相互独立的情况下,多维正态分布的概率密度其实就是各个维度的正态分布密度函数的乘积。
在①中:
σi2表示xi的方差,如此看来,中间那个矩阵实际上是协方差矩阵的逆矩阵:
根据行列式的性质,上三角矩阵的行列式等于主对角线所有元素的乘积,斜对角矩阵当然也是一个上三角矩阵,因此协方差矩阵的行列式是:
将②、③代入①中,得到最终结果:
最大似然估计量
n维相互独立的随机变量x服从正态分布:
在求最大似然估计量时和一维随机变量有所区别,根据上一节的最终结果:
假设有m个可观察样本,那么最大似然函数是:
其对数似然函数是:
其中m和n是已知的,C 是一个常数。
求极值需要对μ和∑求偏导:
μ和∑是矩阵,涉及到矩阵的求导法则。先看对μ的求导,lnL由3个因子组成,只有一个因子含有μ,因此:
其中:
上式中:
因此:
将该结论代入∂lnL/∂μ中:
μ和∑是矩阵,根据矩阵的求导法则:
因为∑-1是一个对称矩阵,因此:
根据矩阵的求导法则:
将a1,a2代入∂lnL/∂μ 中:
再看对∑求偏导:
∑和∑-1都是实对称矩阵,根据矩阵的求导法则,当A是实对称矩阵时:
再看b2。设ωpq是∑第p行第q列的元素,Epq是一个第p行第q列元素为1,其它元素全为0的矩阵,E与∑-1同阶。根据矩阵的求导公式:
已经知道了∑-1是一个对称矩阵,矩阵乘法满足结合律,在不改变矩阵顺序的条件下可以任意加括号:
其中(∑-1(x(i)-μ))T是一个1*n的矩阵,(∑-1(x(i)-μ))Tp表示矩阵中的第p个元素;∑-1(x(i)-μ)是一个n*1的矩阵,(∑-1(x(i)-μ))q表示矩阵中的第q个元素。将该结论推广到矩阵对矩阵的的求导,根据矩阵对矩阵的求导公式:
其中:
在A1中,(∑-1(x(i)-μ))T是一个1*n的矩阵,(∑-1(x(i)-μ))Ti表示矩阵中的第i个元素,是一个标量;∑-1(x(i)-μ)是一个n*1的矩阵,(∑-1(x(i)-μ))i表示矩阵中的第i个元素,也是一个标量,因此:
终于可以求得b2了:
现在可以看看最终的似然函数:
I是单位矩阵,∑-1I=∑-1:
等号两侧同时左乘∑:
两侧同时右乘∑:
最终解得:
最终结论,多维正态分布的最大似然估计量是:
作者:我是8位的
出处:http://www.cnblogs.com/bigmonkey
本文以学习、研究和分享为主,如需转载,请联系本人,标明作者和出处,非商业用途!
扫描二维码关注公作者众号“我是8位的”
开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!
更多推荐
所有评论(0)