协方差矩阵

协方差

在统计学中,方差用来度量单个随机变量的离散程度,而协方差用来刻画两个随机变量的相似程度,方差的计算公式
σ x 2 = 1 n − 1 ∑ i n ( x i − x ˉ ) \sigma_x^2=\cfrac{1}{n-1}\sum\limits_i^n(x_i-\bar{x}) σx2=n11in(xixˉ)
其中 n n n 表示样本数, x ˉ \bar{x} xˉ 表示观测样本的均值。
协方差的计算公式定义为:
σ ( x , y ) = 1 n − 1 ∑ i = 1 n ( x i − x ˉ ) ( y i − y ˉ ) \sigma(x,y)=\cfrac{1}{n-1}\sum\limits_{i=1}^n(x_i-\bar{x})(y_i-\bar{y}) σ(x,y)=n11i=1n(xixˉ)(yiyˉ)
在公式中, x ˉ , y ˉ \bar{x},\bar{y} xˉ,yˉ分别表示两个随机变量对应的观测样本均值。
可以发现:

方差 σ x 2 \sigma_x^2 σx2 可视作随机变量 x x x 关于自身的协方差。

协方差矩阵

给定一个 d d d维随机向量 x = ( x 1 , x 2 , ⋯   , x d ) x=(x_1,x_2,\cdots,x_d) x=(x1,x2,,xd),则
σ ( x m , x k ) = 1 n − 1 ∑ i = 1 n ( x m i − x ˉ m ) ( x k i − x ˉ k ) \sigma(x_m,x_k)=\cfrac{1}{n-1}\sum\limits_{i=1}^n(x_{mi}-\bar{x}_m)(x_{ki}-\bar{x}_k) σ(xm,xk)=n11i=1n(xmixˉm)(xkixˉk)
协方差矩阵为:
Σ = [ σ ( x 1 , x 1 ) ⋯ σ ( x 1 , x d ) ⋮ ⋱ ⋮ σ ( x d , x 1 ) ⋯ σ ( x d , x d ) ] \Sigma= \begin{bmatrix} \sigma(x_1,x_1) & \cdots & \sigma(x_1,x_d) \\ \vdots & \ddots & \vdots\\ \sigma(x_d,x_1) & \cdots & \sigma(x_d,x_d) \end{bmatrix} Σ=σ(x1,x1)σ(xd,x1)σ(x1,xd)σ(xd,xd)
根据上述协方差矩阵的定义,矩阵 Σ \Sigma Σ为对称矩阵(symmetric matrix),其大小为 d × d d\times d d×d

多元正态分布

假设一个向量 x x x服从均值向量为 μ \mu μ的均值向量、协方差矩阵为 Σ \Sigma Σ的多元正态分布(multi-variable Gaussian distribution),则
p ( x ) = ∣ 2 π Σ ∣ − 1 2 exp ⁡ ( − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) ) p(x)=\vert{2\pi\Sigma}\rvert^{-\frac{1}{2}}\exp(-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)) p(x)=2πΣ21exp(21(xμ)TΣ1(xμ))

令均值向量 μ = 0 \mu=0 μ=0,指数前的系数 ∣ 2 π Σ ∣ − 1 2 \vert{2\pi\Sigma}\rvert^{-\frac{1}{2}} 2πΣ21为常数项,所以有
p ( x ) ∝ exp ⁡ ( − 1 2 x T Σ − 1 x ) p(x)\propto \exp(-\frac{1}{2}x^T\Sigma^{-1}x) p(x)exp(21xTΣ1x)

x x x为二维随机向量 x = ( x 1 , x 2 ) x=(x_1,x_2) x=(x1,x2),其协方差矩阵为单位矩阵 I 2 I_2 I2,则 x 1 x_1 x1 x 2 x_2 x2的方差均为1,生成的散点图如下:
在这里插入图片描述

对于每个随机数,似然为:
L ∝ exp ⁡ ( − 1 2 x T x ) \mathcal{L}\propto\exp(-\cfrac{1}{2}x^Tx) Lexp(21xTx)
对图1的点进行一个线性变换: t = A x t=Ax t=Ax,得到图2:
在这里插入图片描述
在上述变换中,矩阵 A A A称为变换矩阵(transformation matrix),将变换矩阵分解为两个矩阵。
尺度矩阵(scaling matrix):
S = [ s 1 0 0 s 2 ] = [ 1 0 0 1 2 ] S=\begin{bmatrix}s_1 & 0 \\ 0 & s_2\end{bmatrix}=\begin{bmatrix}1 & 0 \\ 0 & \frac{1}{2}\end{bmatrix} S=[s100s2]=[10021]
旋转矩阵(rotation matrix):
R = [ cos ⁡ θ − sin ⁡ θ sin ⁡ θ cos ⁡ θ ] = [ cos ⁡ π 6 − sin ⁡ π 6 sin ⁡ π 6 cos ⁡ π 6 ] = [ 3 2 − 1 2 1 2 3 2 ] R=\begin{bmatrix} \cos{\theta} & -\sin{\theta} \\ \sin{\theta} & \cos{\theta} \end{bmatrix}=\begin{bmatrix} \cos{\frac{\pi}{6}} & -\sin{\frac{\pi}{6}} \\ \sin{\frac{\pi}{6}} & \cos{\frac{\pi}{6}} \end{bmatrix}=\begin{bmatrix} \frac{\sqrt{3}}{2} & -\frac{1}{2} \\ \frac{1}{2} &\frac{\sqrt{3}}{2} \end{bmatrix} R=[cosθsinθsinθcosθ]=[cos6πsin6πsin6πcos6π]=[23 212123 ]

其中 θ \theta θ为逆时针旋转的度数。

变换矩阵、尺度矩阵和旋转矩阵的关系: A = R S A=RS A=RS

A = R S = [ 3 2 − 1 4 1 2 3 4 ] A=RS=\begin{bmatrix} \frac{\sqrt{3}}{2} & -\frac{1}{4} \\ \frac{1}{2} &\frac{\sqrt{3}}{4} \end{bmatrix} A=RS=[23 214143 ]

经过线性变换 t = A x t=Ax t=Ax t t t的分布:
x = A − 1 t x=A^{-1}t x=A1t 带入似然 L ( x ) \mathcal{L}(x) L(x)
L ∝ exp ⁡ ( − 1 2 ( A − 1 t ) T ( A − 1 t ) ) = exp ⁡ ( − 1 2 t T ( A T A ) − 1 t ) \mathcal{L}\propto\exp(-\cfrac{1}{2}(A^{-1}t)^T(A^{-1}t))\\ =\exp(-\cfrac{1}{2}t^T(A^TA)^{-1}t) Lexp(21(A1t)T(A1t))=exp(21tT(ATA)1t)
可得,多元正态分布的协方差矩阵:
Σ = A A T = [ 13 16 3 3 16 3 3 16 7 16 ] \Sigma=AA^T=\begin{bmatrix} \frac{13}{16} & \frac{3\sqrt{3}}{16} \\ \frac{3\sqrt{3}}{16} &\frac{7}{16} \end{bmatrix} Σ=AAT=[16131633 1633 167]

协方差矩阵的特征值分解

对于实对称矩阵 Σ \Sigma Σ,必相似于对角矩阵,即存在可逆矩阵P,满足:
Σ = P Λ P T \Sigma=P\Lambda P^T Σ=PΛPT
P P P的每一列为相互正交的特征向量, Λ \Lambda Λ为对角矩阵,特征值从大到小排列。

上述对称矩阵的分解可得:
Σ = ( P Λ 1 / 2 ) ( P Λ 1 / 2 ) T = A A T = ( R S ) ( R S ) T \Sigma=(P\Lambda^{1/2})(P\Lambda^{1/2})^T=AA^T=(RS)(RS)^T Σ=(PΛ1/2)(PΛ1/2)T=AAT=(RS)(RS)T
可得:
P = R = [ cos ⁡ θ − sin ⁡ θ sin ⁡ θ cos ⁡ θ ] = [ 3 2 − 1 2 1 2 3 2 ] P=R=\begin{bmatrix} \cos{\theta} & -\sin{\theta} \\ \sin{\theta} & \cos{\theta} \end{bmatrix}=\begin{bmatrix} \frac{\sqrt{3}}{2} & -\frac{1}{2} \\ \frac{1}{2} &\frac{\sqrt{3}}{2} \end{bmatrix} P=R=[cosθsinθsinθcosθ]=[23 212123 ]
Λ = S S T = [ s 1 2 0 0 s 2 2 ] = [ 1 0 0 1 4 ] \Lambda=SS^T=\begin{bmatrix}s_1^2 & 0 \\ 0 & s_2^2 \end{bmatrix}=\begin{bmatrix}1 & 0 \\ 0 & \frac{1}{4}\end{bmatrix} Λ=SST=[s1200s22]=[10041]

所以,多元正态分布得概率密度由协方差矩阵的特征向量控制旋转(rotation),特征值控制尺度(scale),均值向量控制概率密度的均值。

关于矩阵在线性变换的理解,见下篇博客。

如何直观地理解「协方差矩阵」?

Logo

开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!

更多推荐