在这里插入图片描述

主成分分析(PCA)是一种多元统计方法,旨在通过线性变换选出较少的重要变量,从而有效地从复杂的数据中获取最重要的元素和结构,去除噪音和冗余,实现降维。PCA的主要步骤包括数据中心化、计算协方差矩阵、特征值分解以及选择主成分等。

PCA(Principal Component Analysis,主成分分析)的数学公式如下所示:

假设有一个包含 m 个样本和 n 个特征的数据集 X ),其中 X = [x_1, x_2, …, x_m] ,每个样本 x_i 是一个 n 维向量。

  1. 计算样本的均值向量 x ˉ \bar{x} xˉ
    x ˉ = 1 m ∑ i = 1 m x i \bar{x} = \frac{1}{m} \sum_{i=1}^{m} x_i xˉ=m1i=1mxi

  2. 将数据集进行中心化处理,即每个特征减去对应的均值:
    X centered = X − x ˉ X_{\text{centered}} = X - \bar{x} Xcentered=Xxˉ

  3. 计算数据集的协方差矩阵 Σ \Sigma Σ
    Σ = 1 m X centered T X centered \Sigma = \frac{1}{m} X_{\text{centered}}^T X_{\text{centered}} Σ=m1XcenteredTXcentered

  4. 对协方差矩阵进行特征值分解,得到特征值 λ 1 , λ 2 , . . . , λ n \lambda_1, \lambda_2, ..., \lambda_n λ1,λ2,...,λn 和对应的特征向量 v 1 , v 2 , . . . , v n v_1, v_2, ..., v_n v1,v2,...,vn

  5. 选择前 k 个特征值对应的特征向量作为主成分,构成一个投影矩阵 W W W(每列是一个特征向量)。

  6. 将数据集投影到由前 k 个特征向量构成的子空间中:
    X reduced = X centered W X_{\text{reduced}} = X_{\text{centered}} W Xreduced=XcenteredW

其中, X reduced X_{\text{reduced}} Xreduced 是降维后的数据集。

这就是 PCA 的数学公式,它描述了 PCA 的主要步骤和数学原理。

2. 换个说法进行总结

在PCA的数学原理中,假设原始数据集为X,是一个n×m的矩阵,表示n个样本的m个特征。新的基向量为V,由前k个特征向量组成,是一个m×k的矩阵。降维后的数据集为Y,是一个n×k的矩阵。PCA的降维过程可以通过以下公式表示:

Y=XV

这个公式表示将原始数据集X通过新的基向量V进行线性变换,得到降维后的数据集Y。其中,Y的每个样本都是原始样本在新基向量空间中的坐标表示,而新基向量则是根据协方差矩阵的特征值和特征向量选择得到的,能够最好地表示原始数据的主要变化方向。

需要注意的是,PCA不是简单地从n维特征中去除其余n-k维特征,而是重新构造出全新的k维正交特征。这些新生成的k维数据尽可能多地包含原来n维数据的信息,从而实现了在降维的同时尽量保留原始数据的信息。

综上所述,PCA的数学公式是Y=XV,它表示了通过线性变换将原始高维数据映射到低维空间的过程,是PCA实现数据降维和特征提取的关键步骤。

Logo

开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!

更多推荐