PCA（Principal Component Analysis，主成分分析）的数学公式

在PCA的数学原理中，假设原始数据集为X，是一个n×m的矩阵，表示n个样本的m个特征。新的基向量为V，由前k个特征向量组成，是一个m×k的矩阵。降维后的数据集为Y，是一个n×k的矩阵。PCA的降维过程可以通过以下公式表示：Y=XV这个公式表示将原始数据集X通过新的基向量V进行线性变换，得到降维后的数据集Y。其中，Y的每个样本都是原始样本在新基向量空间中的坐标表示，而新基向量则是根据协方差矩阵的特征

小桥流水---人工智能

3503人浏览 · 2024-04-07 10:28:37

小桥流水---人工智能 · 2024-04-07 10:28:37 发布

在这里插入图片描述

主成分分析（PCA）是一种多元统计方法，旨在通过线性变换选出较少的重要变量，从而有效地从复杂的数据中获取最重要的元素和结构，去除噪音和冗余，实现降维。PCA的主要步骤包括数据中心化、计算协方差矩阵、特征值分解以及选择主成分等。

PCA（Principal Component Analysis，主成分分析）的数学公式如下所示：

假设有一个包含 m 个样本和 n 个特征的数据集 X )，其中 X = [x_1, x_2, …, x_m] ，每个样本 x_i 是一个 n 维向量。

计算样本的均值向量 $\bar{x}$ ：
$\bar{x} = \frac{1}{m} \sum_{i=1}^{m} x_i$
将数据集进行中心化处理，即每个特征减去对应的均值：
$X_{\text{centered}} = X - \bar{x}$
计算数据集的协方差矩阵 $\Sigma$ ：
$\Sigma = \frac{1}{m} X_{\text{centered}}^T X_{\text{centered}}$
对协方差矩阵进行特征值分解，得到特征值 $\lambda_1, \lambda_2, ..., \lambda_n$ 和对应的特征向量 $v_1, v_2, ..., v_n$ 。
选择前 k 个特征值对应的特征向量作为主成分，构成一个投影矩阵 $W$ （每列是一个特征向量）。
将数据集投影到由前 k 个特征向量构成的子空间中：
$X_{\text{reduced}} = X_{\text{centered}} W$

其中， $X_{\text{reduced}}$ 是降维后的数据集。

这就是 PCA 的数学公式，它描述了 PCA 的主要步骤和数学原理。

2. 换个说法进行总结

在PCA的数学原理中，假设原始数据集为X，是一个n×m的矩阵，表示n个样本的m个特征。新的基向量为V，由前k个特征向量组成，是一个m×k的矩阵。降维后的数据集为Y，是一个n×k的矩阵。PCA的降维过程可以通过以下公式表示：

Y=XV

这个公式表示将原始数据集X通过新的基向量V进行线性变换，得到降维后的数据集Y。其中，Y的每个样本都是原始样本在新基向量空间中的坐标表示，而新基向量则是根据协方差矩阵的特征值和特征向量选择得到的，能够最好地表示原始数据的主要变化方向。

需要注意的是，PCA不是简单地从n维特征中去除其余n-k维特征，而是重新构造出全新的k维正交特征。这些新生成的k维数据尽可能多地包含原来n维数据的信息，从而实现了在降维的同时尽量保留原始数据的信息。

综上所述，PCA的数学公式是Y=XV，它表示了通过线性变换将原始高维数据映射到低维空间的过程，是PCA实现数据降维和特征提取的关键步骤。

开放原子开发者工作坊

开放原子开发者工作坊旨在鼓励更多人参与开源活动，与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动，如meetup、训练营等，主打技术交流，干货满满，真诚地邀请各位开发者共同参与！

更多推荐

PTA数据结构与算法-第五章——树与二叉树

文章目录第一章——褚论第二章——线性表第三章——栈与队列第四章——字符串第五章——树与二叉树判断题单选题第一章——褚论第二章——线性表第三章——栈与队列第四章——字符串第五章——树与二叉树判断题1-2设只包含根结点的二叉树高度为0，则高度为k的二叉树最小结点数为k+1。T 举例子即可证明正确1-3关于树和二叉树二叉树是度为 2 的树。F二叉树的度是指树中所有结点的度数的最大值。二叉树的度小于等于2

开放原子开发者工作坊

WPF MVVM从入门到精通7：关闭窗口和打开新窗口

WPF MVVM从入门到精通1：MVVM模式简介WPF MVVM从入门到精通2：实现一个登录窗口WPF MVVM从入门到精通3：数据绑定WPF MVVM从入门到精通4：命令和事件WPF MVVM从入门到精通5：PasswordBox的绑定WPF MVVM从入门到精通6：RadioButton等一对多控件的绑定WPF MVVM从入门到精通7：关闭窗口和打开新窗口WPF M...

开放原子开发者工作坊

CVE-2020-0796 SMB远程代码执行漏洞（分析、验证及加固）

0x00 前言最近一段时间一直忙，挺火的CVE-2020-0796 （永恒之黑）都没来的及复现，今天趁着网快，赶快把漏洞系统下载下，并且准备了检测 payload 、蓝屏 payload 、提权payload、命令执行payload，复现一波，相比起来，只是payload不同而已，来实现不同的功能，下面进行分析。0x01 漏洞描述漏洞公告显示，SMB 3.1.1协议中处理压缩消息时，对其中数据没