1.典型相关(CCA)的基本原理

1.1典型相关的概念

  典型相关分析是研究两组变量之间关系的一种多变量统计分析方法,它可以反映两组变量之间的相互依赖的线性关系。设两组变量用x1,x2…xp,及y1,y2….yq表示,采用类似主成分分析的做法,在每一组变量中选择若干个具有代表性的综合指标(变量的线性组合),通过研究两组的综合指标间的关系来反映两组变量之间的相关关系。基本原理是:首先在每组变量中找出变量的线性组合,使其具有最大相关性,如此继续下去,直到两组变量之间的相关性被提取完毕。

       在单变量复相关中,有p个x变量和一个y变量,分析的目的在于找出适当的回归系数作为这P个x变量的加权值,使p个x变量线性组合分数与这一个y变量分数之间的相关最大。在典型相关分析中也有p个x变量,但是y变量却有q个(q>1)。典型相关的目的在于找出这p个x变量的加权值和这q个y变量的加权值,使这p个x变量线性组合分数与这q个y变量线性组合分数相关程度达到最大。————王斌会著《多元统计分析与R语言建模》

5228a94c1fc789c5f07ba471c43ad966.png

2.冗余分析(RDA)

        RDA是一种结合回归和主成分分析(PCA)的方法。它是多元回归分析的直接扩展,用于多变量响应数据建模。 RDA是生态学家手中极其强大的工具。

3.Canoco4.5软件操作

  专门用于数据降维以及多元统计分析的软件,包括3个部分,分别是:数据转化处理WcanoImp;数据导入及分析Canoco4.5;画图模块CanoDraw。

d01abbcd5ca1a2ea09ee42ce7eedc35e.png

软件分析步骤如下:

(1)数据格式转换(将环境、物种变量从Excel复制到WcanoImp,转换为软件能够识别的text文本文件,物种与环境数据分开,单独导入),导入方法为:先打开WcanoImp, 在EXCEL选中所有环境/物种数据、复制数据(复制不黏贴),再在WcanoImp中点击最下方Save in Condensed Format保存,记住保存位置。

ffabe436e1fedb566379fe081c383bec.png

db54e2cdb08ad575fd08e644fc9cc365.png

注:环境数据格式(严格按照这个格式-行列不能有空白,第一列为样方,第一行为变量名;否则会导致部分数据在WcanoImp中丢失,保存好之后最好用记事本打开看一下是否正确导入)

1c833a29e5b650fa65a953736a2a80ed.png

物种数据格式(注意变量均为英文,中文软件不识别)

b6459b5519f1939015f3a94cb4022167.png

用记事本检查物种,环境数据导入情况

(2)打开Canoco for Windows4.5 新建project,导入刚才保存的物种和环境数据(先导入物种数据,选择间接梯度分析做DCA分析,判断是做RDA分析合适还是CCA,一般轴长大于4选CCA(单峰模型),3-4之间两者都可,小于3用RDA(线性模型)分析)。

a538a6d06b3ea280a712860e7c2cc067.png

接下来弹出下面分析结果保存窗口:在Canocoso solution file name右边点击Browse按钮选择.sol格式文件保存位置,该文件可用记事本打开,里面有物种、环境等相关系数矩阵以及典范轴解释方差比例和蒙特卡罗检验结果等,需仔细查看分析,有助于理解后面的出图。Next选择DCA(去趋势对应分析,判断选择哪种分析合理,RDA or CCA),后面步骤默认直到DCA分析结束。

3ea052de2eec40e72f0d7a9ad328ea50.png

111029fb77c69d8383cd7cef0ff70452.png

b69735c5e7ca65fa98dfa72c9617417c.png

可以看到这里梯度长度小于3所以选RDA分析比较好。这时再返回主界面导入环境数据和物种数据进行RDA分析。

8ff582b453c054b31e8ba5c15a85dc70.png

选择Options之后调出下面窗口,此时选择第二行导入环境、物种数据,分析选择直接梯度分析:

960f79ee9768d8114c65e0ccbc789b75.png

点击下一步

a26bd19b7173ad0c6894d5c848d7d771.png

点击下一步

3993420d703e26a39eeed0d99483b5a5.png

adff7246df57e48946c60ab41022ab87.png

a0634ac76f94fedadaeeada2ffb38843.png

接下来一直选择默认直到跳出预选环境变量窗口:环境变量预选是说有时环境数据中存在过多共线性的变量或者对物种数据影响不大的环境变量,这是需要选择手动剔除还是软件自动剔除还是选择保留不剔除,可根据自己分析需要自行选择。注意接下来要勾选蒙特卡罗置换检验按钮,对典范轴显著性进行分析,一般来说没有显著性的典范轴不适合做RDA分析!

579ee1ec2db7e9c98a970029a50a83c9.png

5d578413c901d7499e0ab5e58d2c551d.png

接下来都选择默认,跳下一步,最后在主界面点击分析按钮查看结果:

b8292e0e63041175c17dd032a1efdfaf.png

如果典范轴有显著性选择Canodraw按钮画图,选择菜单栏 Create-triplot-with environment 

768db3becdad0ca09e7c43cb38794f42.png

物种箭头长度表示物种变化量的比例,环境箭头长度表示对物种分布影响大小,越长影响越大,箭头与排序轴夹角越小表明环境变量与排序轴(第一典范轴与第二典范轴)相关性越高(注意仅仅在尺度选择侧重物种间相关性分析时存在该关系),箭头之间夹角越小相关性也越高。轴的解释度请查看结果文件:

9b7c757031e39f34db5169789050d560.png

ff531bb26f9839c6258a5236602f85e6.png


如图,该RDA分析轴1解释了数据方差变化的82.5%,轴2解释90%-82.5%=7.5%。


华丽分割线

关于R软件和Canoco4.5软件做CCA/RDA分析的一点感悟

       R软件出图漂亮且可操作性强,但是网上用R代码做出来的CCA/RDA图与Canoco做的图还是有较大出入的,很大一个原因是两者处理数据的方式不同。此外,网上关于R作图的代码层出不穷且相差很大,根本不知道哪个代码正确哪个错误,我想很多R使用者跟我一样对CCA/RDA的算法也是一头雾水吧,在这样的情况下用R代码做典型相关分析是存在风险的,鉴于此,还是凑合用Canoco做典型相关图吧(虽然图长得丑,但是它的步骤是很清楚的,不会有大的差错,结果也相对可靠!而且节省时间)。我这里的记录浅薄简单要想真正掌握CCA/RDA分析还得多看书和大牛们的博客文章,谢谢亲们观看,错误之处恳请大家指正!

Logo

开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!

更多推荐