SIMCA-P使用
SIMCA使用演示使用的SIMCA版本是14.1.01. 导入csv文件数据集介绍这里演示会使用到两个数据集,数据集下载地址:网址一个数据集是FOODS.csv,该数据集是对16个国家对20种食物的消耗情况,部分数据如下(这不是一个分类问题,因此只能做PCA分析,不能做PLS-DA分析):另一个数据集是iris.csv,该数据集就是著名的鸢尾花数据集,鸢尾花有三个亚属,分别是山鸢尾(Iris-se
SIMCA-P使用
演示使用的SIMCA-P版本是14.1.0
1. 导入csv文件
数据集介绍
- 这里演示会使用到两个数据集,数据集下载地址:网址
- 一个数据集是
FOODS.csv
,该数据集是对16个国家对20种食物的消耗情况,部分数据如下(这不是一个分类问题,因此只能做PCA分析,不能做PLS-DA分析):
- 另一个数据集是
iris.csv
,该数据集就是著名的鸢尾花数据集,鸢尾花有三个亚属,分别是山鸢尾(Iris-setosa)、变色鸢尾(Iris-versicolor)和维吉尼亚鸢尾(Iris-virginica)。该数据集一共包含4个特征变量,1个类别变量。共有150个样本,iris是鸢尾植物,这里存储了其萼片和花瓣的长宽,共4个属性。部分数据如下(因为可以分为不同类别,所以既可以进行PCA分析,也可以进行PLS-DA分析):
导入步骤:这一以导入
FOODS.csv
数据集为例
- (1)选择创建新项目
- (2)选择需要分析的csv文件
- (3)需要保证每一行是一个样本,每一列是一个特征,如果不是的话,可以通过如下按钮进行转置:
- (4)对不符合要求的数据进行处理,如存在缺失值,数据格式不正确(这一步一般是直接在csv文件里处理,保证导入的数据符合要求)
上面缺失的三个值,可以存在多种填充方式,这里直接填0。另外注意这里可以选择主键,第二主键,如下图:
一般来说主键就像人的身份证号一样,是唯一的,因此我们的csv文件中第一列应该设为从1开始的自然数。第二主键可以不设置,但是建议设置,对于分类问题来说第二主键一定要设置,一般分类变量被设置为第二主键(对于iris.csv
数据集一定要将Species
那一列设置第二主键)。
- (4)保存为
.usp
文件,点击下图中的Finish
即可保存,选择保存位置即可
- (5)保存完毕后会出现如下界面:
之后就可以进行PCA分析了。
2. 进行PCA分析
PCA简介
- PCA,全称是Principal Component Analysis,即主成分分析。其主要作用是降维,从而将数据可视化。是一种无监督分析的方式(即不需要类标)。
- 关于PCA的详细介绍,可以参考:网址
- 关于代谢组学的介绍,可以关注微信公众号:
代谢组小袁
,上面的网址就来自这个公众号。
这里使用
FOODS.csv
数据集为例,演示PCA分析过程,iris.csv
也可以进行PCA分析
- (1)右键选择
Edit Model 1
,如下图
- (2)在弹出的对话框中我们需要进行设置,我们重点关注红色矩形框柱的两项内容即可,即
Observations
和Scale
:
为了让最终显示的图显示各个国家,需要对Observations
进行如下设置(弹出的框全部选择OK即可):
关于Scale
,即对数据进行缩放,缩放方式存在多种,如下:
其中最常用的就是UV
和Par
这两种方式,关于缩放方式的介绍如下(中心化即让数据的均值为0,具体操作可以让每个数据减去该特征的均值):
- (3)这里选择
UV
缩放的方式,分析方式选择PCA-X
(理解为PCA即可),然后点击确定即可。 - (4)拟合模型,点击
Autofit
进行分析即可,如下图:
- (5)分析结果如下,可以看到前三个主成分:
- 还可以点击
Ovierview
看整个数据的概况,如下图
对于结果的分析
Score Scatter Plot
对于该图,横坐标是第一主成分,能够解释原变量30.4%的信息,纵坐标是第二主成分,能够解释原变量21%的信息。
图中距离比较近的国家,饮食习惯的相似性越高,比如Sweden和Denmark,均位于第一象限的右上方,此图应该对照着Loading Scatter Plot一起查看,对应象限一起看,因为Sweden和Denmark位于Score Scatter Plot的第一象限右上方,所以应该查看Loading Scatter Plot的第一象限右上方,我们发现Fro_Fish和Fro_Veg位于此处,这说明Sweden和Denmark这两个国家对于Fro_Fish和Fro_Veg这两种食物消耗比较高,我们查看原始数据发现正是如此,如下图
Loading Scatter Plot
上面也说过,我们应该将该图和Score Scatter Plot一起查看,另外单独解释一下该图的含义。
此图显示了哪些变量对分类的影响大,并且展示了变量之间关系。距离比较近的变量之间是正相关的关系,即一个随着另一个的增加而增加,减少而减少,比如图中的Fro_Fish和Crisp_Bread就是这种关系,画出散点图,如下:
两变量位于原点两侧,并且连线差不多经过原点(即基本位于坐标轴对角线上)的变量之间是反相关的关系,即一个随着另一个的增加而减少,较少而增加,比如图中Garlic和Sweether就是负相关,画出散点图,如下:
两个变量连接原点,两条线的角度越接近90度,相关性越接近于0,如果为90度,则说明两个变量不相关,比如In_Potato和Apples,如下图:
最后想说的一点是,Loading Scatter Plot图中越远离坐标原点的点对分类的影响越大。
DmodX
该图反应了每个样本对PCA模型的适应程度,超过红线说明适应的不好
X/Y Overview [M1]
R2代表解释能力(数学上再现训练集的能力),Q2代表预测能力,均是希望越大越好 ,该图反映了每个自变量对总体解释能力和预测能力的影响,两者最好都在0.5以上;选择保留的主成分数不同,该图的值也不同。
选择几个主成分合适?
上图显示的是综合解释能力和预测能力,而X/Y Overview [M1]这个图显示的是每个变量对解释能力和预测能力的贡献
Loading Column Plot
该图反应了哪些变量对于第一主成分的影响较大,或者说第一主成分很好的解释了哪些变量
Summary
- 对于参数 R 2 X 和 Q 2 X R ^ 2 X 和 Q ^ 2 X R2X和Q2X,有几个值得注意的事实, R 2 X R ^ 2 X R2X不高的话 Q 2 X Q ^ 2 X Q2X 也不可能很高;一般认为 Q 2 X Q ^ 2 X Q2X > 0.5,可以认为模型好,若 Q 2 X Q ^ 2 X Q2X > 0.9,则可以认为该模型十分优秀,但这也与实际应用十分相关;另外 R 2 X R ^ 2 X R2X 和 Q 2 X Q ^ 2 X Q2X差异必须足够小,一般差距在0.2~0.3之间。
- 通过Score Scatter Plot图可以判断强异常值,通过DmodX可以发现中等异常值;在残差中识别异常值(此处指中等异常值)是很重要的,因为他们表示了在特征中缺乏同质性;对于强异常值,在后续的分析中应该剔除,但在以后的研究中应该关注这些强异常值由来的原因以及一些其他细节。
- 为了提高PCA的精度和可靠性,我们应该拥有更多的特征;为了让PCA提供更多的信息,我们应该拥有更多样本。
3. 进行PLS-DA分析
PLS-DA简介
- PLS-DA,全称是Partial Least Squares Discrimination Analysis,即偏最小二乘判别分析。是一种有监督分析的方式(即需要类标)。
- 关于PLS-DA的详细介绍,可以参考:网址
这里使用
iris.csv
数据集为例,演示PLS-DA分析过程,FOODS.csv
不可以进行PLS-DA分析
- (1)直接从
Edit Model 1
开始讲起:
- (2)拟合模型,点击
Autofit
进行分析即可; - (3)还可以点击
Ovierview
看整个数据的概况,如下图
- (4)还可以点击
vip
,看哪些变量对分类性能影响最大
结果如下:
- (5)进行
Permutations
分析,如下图(一般次数设置为200):
结果如下:
因为R2 <= 0.3(即截距小于0.3,可以看到截距为-0.0343),Q2 <= 0.05(即截距小于0.05,可以看到截距为-0.0987),右侧越高效果越好,因为右侧的R2和Q2分别代表模型的解释能力和预测能力。
开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!
更多推荐
所有评论(0)