rda分析怎么做_PCA、PCoA、NMDS、RDA和CCA等排序分
析⽅法
原来你是这样的排序分析带时的诗句
杨慧 宏基因组 2017-12-16
微⽣态相关⽂献中都经常出现。这些分析成图相似,且都是通过样本点之间的距离反映样本间菌群结构的相似性和差异性。因此很多研究⼈员纠结于如何选择恰当的排序⽅法来研究⾃⼰的测序数据或展⽰⾃⼰的研究结果?
今天就由⼩美⼿持放⼤镜,咱们⼀起领略排序分析的新视界......
最美风景图片>古汉养生精
排序分析的异同点?
PCA、PCoA和NMDS分析属于⾮约束性排序分析,⽽RDA/CCA和db-RDA分析属于约束性排序分析,即分别是在环境因⼦的约束条件下进⾏的PCA和PCoA分析。因此,⼀般主要利⽤PCA、PCoA或NMDS分析进⾏样本⽐较,反映样本间菌群结构的相似性和差异性,从⽽分析组间样本能否明显区分开;⽽RDA/CCA和db-RDA分析则多⽤来阐述环境因⼦对样本菌群结构变化的影响,不仅可以反映样本、物种和环境因⼦之间的相关性,⽽且可以找出对物种分布变化影响程度较⼤的环境因⼦。
⼩美还贴⼼的为您总结了这“5胞胎”的异同点:
距离算法为何会影响排序结果?
很多⼈在对数据进⾏分析时会惊奇的发现,PCoA和db-RDA分析选择不同的距离算法会产⽣不同或类似的结果,WHY?
我们以PCoA分析为例:
图注:4种距离的PCoA分析。不同颜⾊代表不同的样本组别
建筑设备工程技术同⼀数据,⼩美分别选择了euclidean,weighted _unifrac,binary_euclidean和unweighted_unifrac这4种距离进⾏分析,结果发现后2种距离可以将3组样本明显区分开来,且组内差异较⼩;反之,前2种距离区分效果不佳。
究其原因,在于前2种距离除此之外还考虑了物种在各个样本中的丰度分布,⽽后2种距离只考虑了样本中物种存在与否。因此在只考虑样本中物种是否存在时能够将不同的样本组区分且组内差异较⼩。那么后续针对这种数据类型是选择只考虑物种有⽆的距离算法将获得更佳的聚类效果,反之亦然。
PCA添加环境因⼦与RDA有何区别?
PCA分析也是可以添加环境因⼦的。那我做个带环境因⼦的PCA不就O啦,为啥还要进⾏RDA分析呢?
如下图所⽰:
图注:不同颜⾊代表不同的样本组别
无人机发展使⽤同⼀数据分别进⾏PCA和RDA分析。⼩美⽆论选择多少环境因⼦对PCA排序结果是没有任何影响的;⽽RDA分析中选择不同的环境因⼦可得到不同的排序结果。
出现这种情况的结果的原因是PCA分析作为⾮约束性排序,环境因⼦加⼊并不会影响样本间菌群差异获得的排序结果;⽽RDA分析是在所选择的环境因⼦的约束条件下进⾏的PCA分析,因此选择不同的环境因⼦组合会产⽣的不同的排序分析结果。
⾼能预警排序分析⽂献⼤放送啦!让我们看看科研⼈员们都是如何选择排序分析的......
1. PCA分析
Title:Impacts of addition of natural zeolite or a nitrification inhibitor on antibiotic resistance genes during sludge composting
10.1016/j.watres.2016.01.010
析解读:PCA分析发现,在污泥堆肥过程中(图中不同的圆圈代表不同的污泥堆肥过程)的不同阶段,微⽣物的群落结构发⽣了较⼤的变化,天然沸⽯和硝化抑制剂DMPP的加⼊不会改变微⽣物群落的演变速率。
2. PCoA分析
Title:Maturation of the infant microbiome community structure and function across multiple body sites and in relation to mode of delivery
DOI:10.1038/nm.4272
分析解读:PCoA分析表明,分娩时新⽣⼉⾝体各部位菌群结构组成差异较⼩;⽽出⽣6周后的婴⼉⾝体各部位菌群结构组成差异显著。
3. NMDS分析
Title: The microbiome of coral surface mucus has a key role in mediating holobiont health and survival upon disturbance
DOI:10.1038/ismej.2016.9
分析解读:NMDS分析发现,珊瑚表⾯粘液与海⽔和沉积物样本可以明显区分开;新粘液与⽼化粘液菌群具有⼀定差异;当⽼化粘液层释放后,其菌群恢复⾄新粘液的初始状态。此外,该图右下⾓展⽰了NMDS分析的stress值。
友情提⽰:近⼀年来,我们可能会发现⽂献中使⽤NMDS分析时⼤多会在图中添加这个神秘的stress值,那么它到底有何含义呢?Strees 值其实反映了NMDS分析结果的优劣。通常认为stress<0.2时,使⽤NMDS分析的结果具有⼀定的解释意义;当stress<0.1时,可认为是⼀个好的排序结果;当stress<0.05时,则表明分析结果具有极好的代表性。
4. RDA/CCA分析
Title:Comparison of community structures of Candidatus Methylomirabilis oxyfera-like bacteria of NC10 phylum in different freshwater habitats
DOI:10.1038/srep25647
爱我的人和我爱的人简谱分析解读:CCA分析表明,沉积物/⼟壤中氨氮(NH4+-N)和总⽆机氮(TIN)含量是与检测样本中NC10细菌集合体变化相关的2个最重要环境因素。
5. db-RDA分析
Title: Weight gain in anorexia nervosa does not ameliorate the faecal microbiota, branched chain fatty acid profles, and gastrointestinal complaints
DOI:10.1038/srep26752
分析解读:db-RDA分析表明,疾病状态和年龄与菌群结构显⽰出相关性,其中疾病状态与菌群结构显著相关(p=0.011,图A);仅分析AN 患者发现AN亚型对微⽣物菌群结构具有显著影响(p=0.008,图B)。
友情提⽰:⼀般运⽤RDA/CCA或db-RDA分析的⽂献中还会以⽂字描述的形式提供某个环境因⼦对物种分布影响程度的⼤⼩(r2值)和显著性P值。
rda_envfit表格⽂件结果:
表格解读:RDA1和RDA2列:表⽰环境因⼦与排序轴之间的相关性;
ef.vectors.r(即r2值):表⽰环境因⼦与物种分布的决定系数,该值越⼩则该环境因⼦对物种分布的影响越⼩;
Ef.vectors.pvals(即p值):相关性的显著性检验值。
三⽂读懂PCA和PCoA(⼀)
宏基因组 2018-04-30
以下⽂章来源于⾦唯智⽣物科技 ,作者Baicun
⾦唯智⽣物科技
⾦唯智在全球范围内为科学研究⼈员提供⾼通量测序、Sanger测序、基因合成、引物合成、分⼦⽣物学服务及GLP标准规范服务。让我们⼀起做世界最好,为世界更好。
本⽂转载⾃“⾦唯智⽣物科技”,已获授权。
在微⽣物NGS测序领域的⾼分⽂章中,PCA(主成分分析)和PCoA(主坐标分析)会很常见。甚⾄在RNA分析领域,很多研究和⽂章也会依据基因的表达量作PCA和PCoA分析。
常见的PCA和PCoA分析以下图的形式呈现:
国际空间站与喷⽓推进实验室依据种群多样性进⾏的PCoA分析[1]
不同培养条件马铃薯浆发酵液的菌群差异[2]
很明显,我们可以通过分析坐标轴中样本和样本之间的距离直观地看到2个样本或2组样本之间的菌群差异性。若2个样本或2组样本之间的直线距离较近,则表⽰这2个样本或2组样本的菌群差异性较⼩;相反,若2个样本或2组样本之间的直线距离较远,则表⽰它们之间菌群差异性较⼤。所以,PCA和PCoA所呈现的结果,具有直观性(直接看两点之间的距离)和完整性(呈现所有样本),且数据易于分析和解读(⼤家都看得懂)。
那么,PCA和PCoA是如何定义的?PCA和PCoA之间是否有区别?何时该选⽤PCA或何时该选⽤PCoA?PCA和PCoA背后的分析原理如何?相信这些问题是⽐较困扰读者的。
PCA和PCoA的定义
PCA(Principal Components Analysis)即主成分分析,也称主分量分析或主成分回归分析法,⾸先利⽤线性变换,将数据变换到⼀个新的坐标系统中;然后再利⽤降维的思想,使得任何数据投影的第⼀⼤⽅差在第⼀个坐标(称为第⼀主成分)上,第⼆⼤⽅差在第⼆个坐标(第⼆主成分)上。这种降维的思想⾸先减少数据集的维数,同时还保持数据集的对⽅差贡献最⼤的特征,最终使数据直观呈现在⼆维坐标系[3]。
PCoA(Principal Co-ordinates Analysis)分析即主坐标分析,可呈现研究数据相似性或差异性的可视化坐标,是⼀种⾮约束性的数据降维分析⽅法,可⽤来研究样本群落组成的相似性或相异性。它与PCA类似,通过⼀系列的特征值和特征向量进⾏排序后,选择主要排在前⼏位的特征值,找到距离矩阵中最主要的坐标,结果是数据矩阵的⼀个旋转,它没有改变样本点之间的相互位置关系,只是改变了坐标系统。两者的区别为PCA是基于样本的相似系数矩阵(如欧式距离)来寻找主成分,⽽PCoA是基于距离矩阵(常⽤bray, jaccard, unifrac)来寻找主坐标[4]。
好吧,定义⽐较抽象,我们还是⽆法看懂看透PCA和PCoA。不急,下⾯的⽂字很重要~~~
PCA和PCoA的区别
1.PCA的理解
a. 假如有3个实验样本,它们共有1个物种x,那么我们其实可以⽤物种x的相对丰度来表⽰样本和样本之间的差异。这样我们就可以画⼀个
⼀维坐标轴,将这3个样本的物种x的丰度表⽰在⼀维轴线上,如下图所⽰:物种x在A, B, C三个样本中的相对丰度
(上部分为物种组成矩阵,下部分为样本的坐标系呈现)
此时数据不发⽣偏移,样本和样本之间的距离代表样本之间的物种丰度差异(实际上样本A和B间的距离即为A中的物种x的丰度与B中物种x 的丰度的差值)。
b. 假如有3个实验样本,它们共有2个物种:x和y。那么我们其实可以⽤物种x和物种y的相对丰度来在⼆维坐标系中定位样本。A=真心话经典问题
(x1,y1), B=(x2,y2),C=(x3,y3),如下图所⽰:物种x和y在A, B, C三个样本中的相对丰度
(上部分为物种组成矩阵,下部分为样本的坐标系呈现)
此时数据不发⽣偏移,样本和样本之间的距离代表样本之间的物种丰度差异。
c. 假如有3个实验样本,它们共有k个物种: x, y, z…………k。那么我们其实可以⽤物种x, y, z…………k的丰度来定位样本A=
(x1,y1,z1……………k1)。同理,样本B与C也可以⽤这种形式表⽰。细⼼的同学可以发现,其实A=(x1,y1,z1……………k1)是⼀组向量,⽽且是k维向量(A=(x1)是⼀维向量,A=(x1,y1)是⼆维向量,A=(x1,y1,z1)是三维向量)。但是k维向量⽆法在⼆维坐标系(平⾯)中表⽰(⼀维和⼆维向量可以,如上a和b两种情况)。此时我们要么将K维向量作出⼀些取舍,如削去⼀些不重要的向量仅保留2个关键向量(削去⼀些不重要的物种仅保留2个关键物种);要么将K维向量投射到⼆维坐标系中(降维),但是此时数据
便会损失,例如下图,我们将⼆维坐标系中的数据投射到⼀维坐标系中,实际数据会折扣掉⼀部分(A和B的直线距离为5,投射到x轴的⼀维距离为4,投射到y轴的⼀维距离为3。从第⼀维坐标轴上观察A和B的距离只有4,从第⼆维坐标轴上观察A和B的距离只有3。)。将⼆维空间数据投射到⼀维空间中存在数据损失
因此将k维空间的数据投射到⼆维空间上(降维),就会产⽣数据损失,此时坐标轴的贡献率就不再是100%,⽽是⼩于100%(⽽a和b两种情况⽆需降维处理,因此贡献率为100%)。此时数据如下图所⽰:将k维空间数据投射到⼆维空间中
(上部分为物种组成矩阵,下部分为样本的坐标系呈现)
因降维处理,数据发⽣损失,样本和样本之间的距离代表样本之间的物种丰度差异。
那么如何来选择投影?这就是定义当中所提到的“使得任何数据投影的第⼀⼤⽅差在第⼀个坐标(称为第⼀主成分)上,第⼆⼤⽅差在第⼆个坐标(第⼆主成分)上”。
2.PCoA的理解
a. 假如有2个实验样本,它们都有很多物种,那么我们可以⽤Bray-Curtis或UniFrac(或其他算法)计算每个样本的物种组成差异度(⽤⼀个数值表⽰物种相对丰度),数值之间的差异就代表了2个样本的物种
相对丰度的差异。这样我们就可以画⼀个⼀维坐标轴,将这2个样本表⽰
在⼀维轴线上,如下图所⽰:2个样本在⼀维坐标系中呈现
(上部分为物种组成矩阵,下部分为样本的坐标系呈现)
此时数据不发⽣偏移,样本和样本之间的距离代表样本之间的物种丰度差异。
b. 假如有3个实验样本,同样可以⽤Bray-Curtis或UniFrac(或其他算法)计算每个样本的物种组成差异度(⽤⼀个数值表⽰物种相对丰度),数值之间的差异就代表了每2个样本的物种相对丰度的差异。这样我们就可以画⼀个⼆维坐标轴(三点组成⼀个⾯),将这3个样本表⽰在⼆维一次侧
轴线上,如下图所⽰:3个样本在⼆维坐标系中呈现
(上部分为物种组成矩阵,下部分为样本的坐标系呈现)
此时数据不发⽣偏移,样本和样本之间的距离代表样本之间的物种丰度差异。
c. 以此类推,假如有n个实验样本,同样可以⽤Bray-Curtis或UniFrac(或其他算法)计算每个样本的物种组成差异度(⽤⼀个数值表⽰物种相对丰度),数值之间的差异就代表了每2个样本的物种相对丰度的
差异。这样我们就可以画⼀个n-1维坐标轴,将这n个样本表⽰在n-1维空间中。但是n-1维空间⽆法在平⾯上表⽰(⼀维和⼆维除外,三维勉强可以),因此只能利⽤矩阵呈现,如下图所⽰:n个样本的矩阵⽰意图
若要将n-1维的数据在⼆维坐标系中呈现,需降维处理,即将n-1维的数据投影到⼆维空间当中,⽅法与思路同PCA类似。此时,2个坐标轴的贡献率均⼩于100%,如下图所⽰:n个样本在⼆维空间中呈现(只展⽰了3个样本)
因降维处理,数据发⽣损失,样本和样本之间的距离代表样本之间的物种丰度差异。
这个时候, PCA和PCoA就好理解了。我们再回过头看定义“PCA是基于样本的相似系数矩阵(如欧式距离)来寻找主成分,⽽PCoA是基于距离矩阵(欧式距离以外的其他距离)来寻找主坐标”,其实浅显地来理解,就是上⾯这么回事。
我们知道了PCA和PCoA的定义,也理解了PCA和PCoA的区别,那么它们该何时选⽤,以及背后的算法如何?欲知后事如何,且听下回分解。
特此声明:
1、 本⽂仅供读者理解,不涉及专业学术论证;
2、 本⽂为⼩编的⼀点感悟⼼得,⾮常欢迎各位业界同⾏的讨论与交流,同时也⾮常欢迎各位专家⽼师的指正,您的⼀个问题会使我们共同进步!
参考⽂献:
[1] Aleksandra Checinska et al., Microbiomes of the dust particles collected from the International Space Station and Spacecraft Asmbly Facilities. Microbiome. 2015
[2] Zhiman Yang et al., Enhanced methane production via repeated batch bioaugmentation pattern of enriched microbial consortia. Bioresource Technology. 2016