1. 简介

协方差(Covariance)用于衡量两个随机变量的联合变化程度,方差是协方差的一种特殊情况,即变量和自身的协方差。

实数随机变量X与Y的协方差定义为:

c o v ( X , Y ) = E ( ( X − E ( X ) ( Y − E ( Y ) ) = E ( X ⋅ Y ) − E ( X ) E ( Y ) cov(X,Y) = E((X-E(X)(Y-E(Y)) = E(X\cdot Y) - E(X) E(Y) cov(X,Y)=E((XE(X)(YE(Y))=E(XY)E(X)E(Y)

协方差表示的是两个变量总体的误差,如果两个变量的变化趋势一致,那么两个变量的协方差为正值;如果两个变量的趋势相反,则两个变量之间的协方差为负值。

如果X和Y是统计独立的,那么二者的协方差为0.

E ( X ⋅ Y ) = E ( X ) ⋅ E ( Y ) E(X \cdot Y) = E(X) \cdot E(Y) E(XY)=E(X)E(Y)

协方差的相关性:

η = c o v ( X , Y ) v a r ( X ) ⋅ v a r ( Y ) \eta = \frac{cov(X,Y)}{\sqrt {var(X) \cdot var(Y)}} η=var(X)var(Y) cov(X,Y)

更准确的说是线性相关性,衡量线性独立的无量纲数,取值在[-1,1]之间。

η = 1 \eta = 1 η=1, 称为完全线性相关。

2. 性质

c o v ( X , X ) = v a r ( X ) cov(X,X) = var(X) cov(X,X)=var(X)

c o v ( X , Y ) = c o v ( Y , X ) cov(X,Y) = cov(Y,X) cov(X,Y)=cov(Y,X)

c o v ( a X , b Y ) = a b c o v ( X , Y ) cov(aX,bY) = ab cov(X,Y) cov(aX,bY)=abcov(X,Y)

对于随机变量序列 X 1 , X 2 , . . . , X n X_1, X_2, ..., X_n X1,X2,...,Xn Y 1 , Y 2 , . . . , Y m Y_1, Y_2, ..., Y_m Y1,Y2,...,Ym, 有

c o v ( ∑ i = 1 n X i , ∑ j = 1 m Y j ) = ∑ i = 1 n ∑ j = 1 m c o v ( X i , Y j ) , cov(\sum_{i=1}^n X_i, \sum_{j=1}^{m} Y_j) = \sum_{i=1}^n\sum_{j=1}^{m} cov(X_i, Y_j), cov(i=1nXi,j=1mYj)=i=1nj=1mcov(Xi,Yj),

协方差矩阵

m 与n 个标量元素的列向量随机变量 X, Y之间的协方差:

c o v ( X , Y ) = E ( ( X − E ( X ) ) ⋅ ( Y − E ( Y ) ) T ) cov(X, Y) = E((X-E(X)) \cdot (Y-E(Y))^T) cov(X,Y)=E((XE(X))(YE(Y))T)

两个向量变量的协方差 c o v ( X , Y ) cov(X,Y) cov(X,Y) c o v ( Y , X ) cov(Y,X) cov(Y,X) 互为转置矩阵。

3. 协方差计算示例

假设, X = [ 1 , 3 , 4 , 5 ] X = [1,3, 4,5] X=[1,3,4,5], Y = [ 2 , 6 , 2 , 2 ] Y = [2,6,2,2] Y=[2,6,2,2].

X X X 的均值 E ( X ) = 3.25 E(X) = 3.25 E(X)=3.25; E ( Y ) = 3 E(Y) = 3 E(Y)=3.

在这里插入图片描述

最终计算的协方差矩阵为:

在这里插入图片描述


  1. covariance 讲解
  2. wiki 协方差
Logo

开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!

更多推荐