协方差矩阵与多元正态分布
文章目录协方差矩阵协方差协方差矩阵多元正态分布协方差矩阵的特征值分解协方差矩阵协方差在统计学中,方差用来度量单个随机变量的离散程度,而协方差用来刻画两个随机变量的相似程度,方差的计算公式σx2=1n−1∑in(xi−xˉ)\sigma_x^2=\cfrac{1}{n-1}\sum\limits_i^n(x_i-\bar{x})σx2=n−11i∑n(xi−xˉ)其中 nnn 表示样本数,x
协方差矩阵
协方差
在统计学中,方差用来度量单个随机变量的离散程度,而协方差用来刻画两个随机变量的相似程度,方差的计算公式
σ
x
2
=
1
n
−
1
∑
i
n
(
x
i
−
x
ˉ
)
\sigma_x^2=\cfrac{1}{n-1}\sum\limits_i^n(x_i-\bar{x})
σx2=n−11i∑n(xi−xˉ)
其中
n
n
n 表示样本数,
x
ˉ
\bar{x}
xˉ 表示观测样本的均值。
协方差的计算公式定义为:
σ
(
x
,
y
)
=
1
n
−
1
∑
i
=
1
n
(
x
i
−
x
ˉ
)
(
y
i
−
y
ˉ
)
\sigma(x,y)=\cfrac{1}{n-1}\sum\limits_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})
σ(x,y)=n−11i=1∑n(xi−xˉ)(yi−yˉ)
在公式中,
x
ˉ
,
y
ˉ
\bar{x},\bar{y}
xˉ,yˉ分别表示两个随机变量对应的观测样本均值。
可以发现:
方差 σ x 2 \sigma_x^2 σx2 可视作随机变量 x x x 关于自身的协方差。
协方差矩阵
给定一个
d
d
d维随机向量
x
=
(
x
1
,
x
2
,
⋯
,
x
d
)
x=(x_1,x_2,\cdots,x_d)
x=(x1,x2,⋯,xd),则
σ
(
x
m
,
x
k
)
=
1
n
−
1
∑
i
=
1
n
(
x
m
i
−
x
ˉ
m
)
(
x
k
i
−
x
ˉ
k
)
\sigma(x_m,x_k)=\cfrac{1}{n-1}\sum\limits_{i=1}^n(x_{mi}-\bar{x}_m)(x_{ki}-\bar{x}_k)
σ(xm,xk)=n−11i=1∑n(xmi−xˉm)(xki−xˉk)
协方差矩阵为:
Σ
=
[
σ
(
x
1
,
x
1
)
⋯
σ
(
x
1
,
x
d
)
⋮
⋱
⋮
σ
(
x
d
,
x
1
)
⋯
σ
(
x
d
,
x
d
)
]
\Sigma= \begin{bmatrix} \sigma(x_1,x_1) & \cdots & \sigma(x_1,x_d) \\ \vdots & \ddots & \vdots\\ \sigma(x_d,x_1) & \cdots & \sigma(x_d,x_d) \end{bmatrix}
Σ=⎣⎢⎡σ(x1,x1)⋮σ(xd,x1)⋯⋱⋯σ(x1,xd)⋮σ(xd,xd)⎦⎥⎤
根据上述协方差矩阵的定义,矩阵
Σ
\Sigma
Σ为对称矩阵(symmetric matrix),其大小为
d
×
d
d\times d
d×d。
多元正态分布
假设一个向量 x x x服从均值向量为 μ \mu μ的均值向量、协方差矩阵为 Σ \Sigma Σ的多元正态分布(multi-variable Gaussian distribution),则
p ( x ) = ∣ 2 π Σ ∣ − 1 2 exp ( − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) ) p(x)=\vert{2\pi\Sigma}\rvert^{-\frac{1}{2}}\exp(-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)) p(x)=∣2πΣ∣−21exp(−21(x−μ)TΣ−1(x−μ))
令均值向量
μ
=
0
\mu=0
μ=0,指数前的系数
∣
2
π
Σ
∣
−
1
2
\vert{2\pi\Sigma}\rvert^{-\frac{1}{2}}
∣2πΣ∣−21为常数项,所以有
p
(
x
)
∝
exp
(
−
1
2
x
T
Σ
−
1
x
)
p(x)\propto \exp(-\frac{1}{2}x^T\Sigma^{-1}x)
p(x)∝exp(−21xTΣ−1x)
令
x
x
x为二维随机向量
x
=
(
x
1
,
x
2
)
x=(x_1,x_2)
x=(x1,x2),其协方差矩阵为单位矩阵
I
2
I_2
I2,则
x
1
x_1
x1和
x
2
x_2
x2的方差均为1,生成的散点图如下:
对于每个随机数,似然为:
L
∝
exp
(
−
1
2
x
T
x
)
\mathcal{L}\propto\exp(-\cfrac{1}{2}x^Tx)
L∝exp(−21xTx)
对图1的点进行一个线性变换:
t
=
A
x
t=Ax
t=Ax,得到图2:
在上述变换中,矩阵
A
A
A称为变换矩阵(transformation matrix),将变换矩阵分解为两个矩阵。
尺度矩阵(scaling matrix):
S
=
[
s
1
0
0
s
2
]
=
[
1
0
0
1
2
]
S=\begin{bmatrix}s_1 & 0 \\ 0 & s_2\end{bmatrix}=\begin{bmatrix}1 & 0 \\ 0 & \frac{1}{2}\end{bmatrix}
S=[s100s2]=[10021]
旋转矩阵(rotation matrix):
R
=
[
cos
θ
−
sin
θ
sin
θ
cos
θ
]
=
[
cos
π
6
−
sin
π
6
sin
π
6
cos
π
6
]
=
[
3
2
−
1
2
1
2
3
2
]
R=\begin{bmatrix} \cos{\theta} & -\sin{\theta} \\ \sin{\theta} & \cos{\theta} \end{bmatrix}=\begin{bmatrix} \cos{\frac{\pi}{6}} & -\sin{\frac{\pi}{6}} \\ \sin{\frac{\pi}{6}} & \cos{\frac{\pi}{6}} \end{bmatrix}=\begin{bmatrix} \frac{\sqrt{3}}{2} & -\frac{1}{2} \\ \frac{1}{2} &\frac{\sqrt{3}}{2} \end{bmatrix}
R=[cosθsinθ−sinθcosθ]=[cos6πsin6π−sin6πcos6π]=[2321−2123]
其中 θ \theta θ为逆时针旋转的度数。
变换矩阵、尺度矩阵和旋转矩阵的关系: A = R S A=RS A=RS
A = R S = [ 3 2 − 1 4 1 2 3 4 ] A=RS=\begin{bmatrix} \frac{\sqrt{3}}{2} & -\frac{1}{4} \\ \frac{1}{2} &\frac{\sqrt{3}}{4} \end{bmatrix} A=RS=[2321−4143]
经过线性变换
t
=
A
x
t=Ax
t=Ax,
t
t
t的分布:
将
x
=
A
−
1
t
x=A^{-1}t
x=A−1t 带入似然
L
(
x
)
\mathcal{L}(x)
L(x)
L
∝
exp
(
−
1
2
(
A
−
1
t
)
T
(
A
−
1
t
)
)
=
exp
(
−
1
2
t
T
(
A
T
A
)
−
1
t
)
\mathcal{L}\propto\exp(-\cfrac{1}{2}(A^{-1}t)^T(A^{-1}t))\\ =\exp(-\cfrac{1}{2}t^T(A^TA)^{-1}t)
L∝exp(−21(A−1t)T(A−1t))=exp(−21tT(ATA)−1t)
可得,多元正态分布的协方差矩阵:
Σ
=
A
A
T
=
[
13
16
3
3
16
3
3
16
7
16
]
\Sigma=AA^T=\begin{bmatrix} \frac{13}{16} & \frac{3\sqrt{3}}{16} \\ \frac{3\sqrt{3}}{16} &\frac{7}{16} \end{bmatrix}
Σ=AAT=[161316331633167]
协方差矩阵的特征值分解
对于实对称矩阵 Σ \Sigma Σ,必相似于对角矩阵,即存在可逆矩阵P,满足:
Σ = P Λ P T \Sigma=P\Lambda P^T Σ=PΛPT
P P P的每一列为相互正交的特征向量, Λ \Lambda Λ为对角矩阵,特征值从大到小排列。
上述对称矩阵的分解可得:
Σ
=
(
P
Λ
1
/
2
)
(
P
Λ
1
/
2
)
T
=
A
A
T
=
(
R
S
)
(
R
S
)
T
\Sigma=(P\Lambda^{1/2})(P\Lambda^{1/2})^T=AA^T=(RS)(RS)^T
Σ=(PΛ1/2)(PΛ1/2)T=AAT=(RS)(RS)T
可得:
P
=
R
=
[
cos
θ
−
sin
θ
sin
θ
cos
θ
]
=
[
3
2
−
1
2
1
2
3
2
]
P=R=\begin{bmatrix} \cos{\theta} & -\sin{\theta} \\ \sin{\theta} & \cos{\theta} \end{bmatrix}=\begin{bmatrix} \frac{\sqrt{3}}{2} & -\frac{1}{2} \\ \frac{1}{2} &\frac{\sqrt{3}}{2} \end{bmatrix}
P=R=[cosθsinθ−sinθcosθ]=[2321−2123]
Λ
=
S
S
T
=
[
s
1
2
0
0
s
2
2
]
=
[
1
0
0
1
4
]
\Lambda=SS^T=\begin{bmatrix}s_1^2 & 0 \\ 0 & s_2^2 \end{bmatrix}=\begin{bmatrix}1 & 0 \\ 0 & \frac{1}{4}\end{bmatrix}
Λ=SST=[s1200s22]=[10041]
所以,多元正态分布得概率密度由协方差矩阵的特征向量控制旋转(rotation),特征值控制尺度(scale),均值向量控制概率密度的均值。
关于矩阵在线性变换的理解,见下篇博客。
开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!
更多推荐
所有评论(0)