⽣态学多元数据排序分析软件Canoco5介绍_赖江⼭
⽣物多样性 2013, 21 (6): 765–768 Doi: 10.3724/SP.J.1003.2013.04133 Biodiversity Science http:
///doc/a67a9f0028ea81c759f578d6.html
—————————————————— 收稿⽇期: 2013-05-31; 接受⽇期: 2013-08-22 基⾦项⽬: 国家⾃然科学基⾦(31200403)荠菜猪肉饺子
通讯作者 Author for correspondence. E-mail: lai@/doc/a67a9f0028ea81c759f578d6.html
⽣态学多元数据排序分析软件Canoco 5介绍
赖江⼭*
(中国科学院植物研究所植被与环境变化国家重点实验室, 北京 100093)剪纸动物
摘要: 基于样⽅单元的⽣物群落调查多元数据是⽣物多样性研究中最基本的数据类型之⼀。排序(ordination)作为多元统计最常⽤的⽅法之⼀, ⽬的是在可视化的低维空间展⽰多维数据的结构。Canoco
是数据排序分析最流⾏的软件之⼀。Canoco 4.5⾃从2002年发布以来, 凭借简单的操作界⾯和功能齐全的绘图⼯具, 得到⼴泛的应⽤。但随着计算机技术的不断发展和新的排序⽅法不断出现, Canoco 4.5已经⽆法满⾜⽣态学研究⼈员对于多元数据深⼊分析的需求。作为Canoco 4.5的升级版本, Canoco 5于2012年10⽉发布。Canoco 5在Canoco 4.5基础上做了很多改进,主要体现在简化数据输⼊、提供更完善的帮助系统和绘图⼯具、简化⽅差分解和显著性检验的步骤, 并增加了⼀些新的分析⽅法(例如PCNM 、NMDS 、功能性状关联分析等)。本⽂概述了Canoco 5所做的这些改进, 并对有些重要操作步骤进⾏提⽰, 供同⾏参考。
关键词: ⽅差分解, 邻体矩阵主坐标分析, ⾮度量多维尺度分析, 谱系, 功能属性
Canoco 5: a new version of an ecological multivariate data ordination program
Jiangshan Lai *
State Key Laboratory of Vegetation and Environmental Change, Institute of Botany, Chine Academy of Sciences, Beijing 100093
Abstract: Ordination of multidimensional data on community composition is one of the most important multivariate statistical methods ud in biodiversity rearch. The aim of ordination is to vi
sualize multidimensional data structure at a low-dimensional ordination space. Canoco is one of the most popular programs for ordination analysis and Canoco 4.5 was widely ud for such analysis after its relea in 2002, becau of its simple ur interface and powerful graphic tools. A new version of Cannoco, Canoco 5 was relead in October 2012. This new version simplifies data entry, provides a better help system and graphics tools, simplifies steps of variation partitioning and significance tests, adds some new methods (e.g. PCNM, NMDS, association analysis of functional traits, etc.). This paper provides an overview of the major improvements to Canoco 5, and address important steps required for particular analys. Key words: variation partitioning, PCNM, NMDS, functional traits, phylogenetic
基于样⽅单元的⽣物群落调查数据是⽣物多样性研究中最基本的数据类型之⼀。每个样⽅内通常包含很多物种(或环境因⼦)的数量信息。这样的原始数据常⽤多元数据矩阵来表⽰, ⼀般是⼀⾏代表⼀个样⽅, ⼀列代表⼀个物种(或环境因⼦)。样⽅、物种和环境因⼦数据结构特征以及它们之间的关系, 是群落⽣态学研究的主要内容。以研究样⽅
学校论坛
之间的关系为例, 如果每个物种作为⼀个维度, 有多少个物种就代表多少维度, 那么这些样⽅可以被当作多维空间的点的集合。如果所有样⽅只有2个物种存在, 可以直接⽤⼆维平⾯上的散点图来描述所有样⽅之间的关系。但样⽅内物种数通常超过2个,如果绘制所有物种组合下的平⾯散点图, 是⾮常庞⼤
的⼯作量。⽐如, ⼀个包括10个物种的矩阵,诗朗诵配乐纯音乐
作文之星
766 ⽣物多样性 Biodiversity Science第21卷
可以⽤45个(组合C210)⼆维散点图来展⽰样⽅之间的关系。但同时观测45张平⾯散点图, 既看不出数据的主要结构, 也看不清楚样⽅之间的关系。排序(ordination)的过程就是在⼀个可视化的低维空间(通常是⼆维)重新排列这些样⽅, 使得样⽅之间的距离最⼤程度地反映出平⾯散点图内样⽅之间的关系信息。此时, 低维空间的排序轴不再是代表具体某个物种, ⽽是虚拟的排序轴, 反映⼀定的⽣态环境因⼦梯度(张⾦屯, 2004)。排序运算过程实际上就是降维的过程, 降维过程中不可避免地会丢失信息, 好的排序⽅法就是使降维过程中信息损失尽可能减少。
⾃20世纪50年代开始, ⽣态学家开始⽤排序的⽅法研究植被群落的连续分布。经过半个世纪的发展, 现在已经开发出种类繁多的排序技术(von Wehrden et al., 2009)。根据不同的数据对象和研究⽬标, 现代的排序⽅法主要可归为两类: 只使⽤物种组成数据的排序称作⾮限制性排序(unconstrained ordination), 同时使⽤物种和环境因⼦组成数据的排序叫作限制性排序(constrained ordination)。常⽤的⾮限制性排序⽅法包括主成分分析(principal components analysis)、对应分析(correspondence analysis, CA)、主坐标分析(principal coordinate analysis, PCoA)、⾮度量多维尺度分析(non-metric multi-dimensional scaling, NMDS)等。常⽤的限制性排序⽅法包括冗余分析(redundancy analysis, RDA)、典范对应分析(canonical correspondence analysis,
CCA)等。⽬前, 排序⽅法不仅仅⽤于⽣物群落分析, 也适⽤于⼤部分以样点为基础的观察数据或实验数据的分析。
Canoco是⽣态学及相关领域多元数据排序分析最流⾏的软件之⼀, 其名称取⾃于canonical community ordination (ter Braak & Smilauer, 2002), 由美国Microcomputer Power计算机公司开发。从1985年Canoco 1.0发布以来, ⾄今已经发布了6个版本: Canoco 1.0(1985年), Canoco 2.0(1985年), Canoco 3.0(1990年), Canoco 4.0(1998年), Canoco 4.5(2002年), Canoco 5(2012年)。
Canoco 4.5⾃从2002年发布以来(ter Braak & Smilauer, 2002), 凭借简单的操作界⾯和功能齐全的绘图⼯具, 得到了⼴泛的应⽤, 也是⽬前研究⼈员⽐较熟悉的版本。ISI Web of Knowledge的最新引证数据表明, 在过去的10年中(2003–2013年), Canoco 4.5使⽤⼿册被引⽤达4,000多次。Canoco 4.5虽然包括⼤部分常⽤的排序⽅法, 但随着计算机技术的不断发展和新的排序⽅法不断出现, 已经⽆法满⾜⽣态学研究⼈员对于多元数据深⼊分析的需求。作为Canoco 4.5的升级版本, Canoco 5于2012年10⽉发布(ter Braak & Smilauer, 2012)。Canoco 5在Canoco 4.5基础上作了很多改进, 主要体现在简化数据输⼊、提供更完善帮助系统和绘图⼯具、简化⽅差分解和显著性检验的步骤, 并增加了⼀些新的分析⽅法, 例如邻体矩阵主坐标分析(PCNM)、⾮度量多维尺度分析(NMDS)、功能性状关联分析等。笔者概述了Canoco 5所做的这些改进, 并对有些重要操作步骤进⾏提⽰, 供同⾏参考。
1集成了不同功能的程序模块
Canoco 4.5包含5个分离的、不同功能的程序模块, 分别是Programs of Canoco for Windows(核⼼程序)、CanoDraw 4.0 for Windows(绘图程序)、PrCoord(主坐标分析程序)、WcanoImp(数据转化程序)和CanoMerge(数据合并程序)。Canoco 5不再有分离的模块, 已经是集数据管理、分析和绘图为⼀体的单⼀程序。附图I显⽰Canoco 5 的⼯作界⾯。
2可以直接导⼊Excel数据表格或Canoco 4.x⽣成的数据⽂件
数据输⼊对于初学者常常是最⼤的障碍。在Canoco的旧版本中, 对数据格式要求严格, 必须按照它⾃带的格式输⼊才能识别。在Canoco 4.x版本中, Excel数据表格进⼊分析之前需要由WcanoImp 程序转化为Canoco识别的⽂件。Canoco 5的数据导⼊功能增强, 可以直接导⼊Excel表格或从Canoco 4.x⽣成的数据⽂件, 也可以⽤⾃带的电⼦表格编辑器建⽴空⽩表格直接输⼊数据。附图II显⽰的是从Excel导⼊Canoco 5的界⾯。对于变量的名称, 不再限于8个字符, 可以⾃⼰设定其缩略形式, 也可以⾃动从全名中抽取⼀部分作为变量名称。Canoco 5中, 因⼦变量(等级变量)可直接⽤字符型变量, ⽽不必预先转为⼆元变量(0,1数据), 运算时程序会⾃动将因⼦变量转为⼆元变量。
第6期赖江⼭: ⽣态学多元数据排序分析软件Canoco 5介绍 767 3提供更智能的帮助系统
Canoco 5除了常规的帮助系统, 还以Canoco
顾问(advir)的形式主动提供智能帮助。Canoco顾
问是真正的专家系统, 能够根据数据类型建议使⽤
什么分析⽅法、如何运⾏这些程序, 以及如何获得
最佳的可视化排序结果(附图III)。
4提供完善的绘图⼯具
Canoco 5提供CanoDraw 4.0的所有绘图⼯具,
有些⼯具还得到了优化, 所⽣成的排序图可以保存
为JPEG、TIFF和PDF等格式。附图IV分别显⽰以多
边形(左图)或椭圆形(右图)来区分排序空间内的不
同类群。设置多边形和椭圆形的步骤如下:
(1)进⾏排序分析后, 先对物种(或样⽅)进⾏分
类: 选择Project-Classifications(注意⼀定要对所有
的物种或样⽅进⾏归类, 否则, 做图的时候将不能
显⽰未归类的对象), 然后选择U lected
classification in graphs。
(2)选择Analysis-plot creation options
–General-plot envelops for (sample or species)
(3)⽣成排序图: Graph-Scatterplots-(sample or
species)。纤腰
(4)选择Graph-Show Attribute Editor 或是直接
点击
可以对多边形进⾏编辑, 包括填充颜⾊、
线条粗细等。蒸汽轮船
(5)如果需要将多边形换成椭圆形: 选择Edit-Setting-Graphing options–Draw envelopes as ellips, 然后点击Graph-Recreat graph, 原来排序图上的多边形将被椭圆形替代。⼀般地, 初始的椭圆形所设定的范围不准确, 可以对其尺⼨作进⼀步修正, 步骤如下: ⿏标左键选定要修正的椭圆形, 点击右键, 选择change ellips size, 可以根据实际情况设定椭圆形合适的尺⼨(因为椭圆的⽅向和中⼼点不能改变, 故椭圆形效果⼀般⽐多边形差)。选择
Graph-Show Attribute Editor 或是直接点击
也
存在歌词可以对椭圆形进⾏编辑。
5完善了基于距离矩阵的排序分析
在Conoco 4.5中, 主坐标分析(PCoA)和基于距离的冗余分析(db-RDA)通常预先计算距离矩阵(Conoco 4.5 ⾃带的距离度量模式⾮常有限), 再输⼊PrCoord模块及主程序进⾏联合运算分析。Canoco 5包含
更多的距离度量⽅式(包括Bray-Curtis、Gower 距离、Jaccard 系数等11种典型距离计算), 可以直接导⼊原始数据后进⾏PCoA和db-RDA分析。附图V显⽰PCoA分析设置向导的界⾯。另外, Canoco 5增加了NMDS排序。
6简化⽅差分解计算步骤
在Canoco 4.5中, 两组或三组解释变量对响应变量总⽅差的解释率分解需要多次偏分析才能获得最终结果, ⽽Canoco 5可以直接给出每组变量的单独解释部分、共同解释部分以及总的解释量(附图VI)。在分析⽅法的选择界⾯, Canoco 5⾥将⽅差分解的⽅法归为⼀类: 即Variation Partitioning Aanlys, 也见附图IX。
7增加了单个解释变量的显著性检验功能
在限制性排序分析中, 如果在蒙特卡罗检验选择界⾯中选中“Summarize effects of expl. variables”(附图VII上图), 分析结果可以显⽰每个环境因⼦解释率和显著性检验的结果(附图VII下图)。下图中Simple Effects部分是每个环境因⼦单独的解释量(等同只导⼊单个环境因⼦的限制性排序分析的解释量), Conditional Effects部分是按照解释量⼤⼩顺序不断加⼊环境因⼦后所增加的解释量。
8可以显⽰每个轴的显著性检验结果
在Canoco 4.5中, 限制性排序的显著性检验只能显⽰前四轴与第⼀轴的检验结果。如果想检验其他轴的显著性(⽐如第⼆轴), 只能⾸先进⾏限制性排序分析, 使⽤样⽅在第⼀轴的坐标作为协变量(从承载分析结果的solution(.sol)⽂件获得)进⾏偏限制性分析, 这样新检验出的第⼀轴的显著性便是原来第⼆轴的显著性(Lepx & Smilauer, 2003)。⽽Canoco 5可以直接给出各个限制性轴单独的检验结果(附图VIII)。
9增加了邻体矩阵主坐标分析(PCNM)⽅法
邻体矩阵主坐标分析(principal coordinates of neighbor matrices, PCNM)是近期开发的多尺度空间结构建模⽅法, 现已⼴泛应⽤在群落数据空间分析的研究中(Borcard & Legendre, 2002; Legendre et al.,
768 ⽣物多样性 Biodiversity Science第21卷
2005, 2008; von Wehrden et al., 2009)。该⽅法在Canoco 5中被纳⼊⽅差分解分析(variation partitioning analys)范畴。附图IX显⽰PCNM分析的设置界⾯。
10增加了群落内类群功能性状与谱系关联分析
⽬前, 物种的功能性状与谱系分析是⽣态学研究的热点之⼀。功能多样性是⽣物多样性的重要组成部分, ⼀般将其定义为能够影
响⽣态系统功能的物种或有机体性状的价值和范围(Petchey & Gaston, 2006)。⽬前, 功能多样性逐渐被⼴泛应⽤于探究陆地、⽔⽣⽣态系统中包括植物、动物、菌类等不同营养级的⽣物体在群落和⽣态系统中的功能及其范围。Canoco 5不仅可以管理功能性状数据, 并计算群落内和群落间功能多样性相关的指数, 计算单个样⽅内某个性状的平均值等, 也可以直接导⼊谱系树进⾏相关分析。Canoco 5⽀持Desdevis⽅法, 允许导⼊Newick格式系统发育树, 并将其转变成⼀个Patristic距离矩阵。在Canoco 5中, 还可以轻松地做出美观的性状和环境变量的RLQ分析排序图。附图X 显⽰Canoco 5中功能性状与谱系分析的相关界⾯。
致谢:感谢Microcomputer Power公司的Richard E. Furnas博⼠提供Canoco 5试⽤版本。对Canoco 5试⽤版感兴趣的读者请直接向Richard先⽣索取(FurnasR@/doc/a67a9f0028ea81c759f578d6.html )。
参考⽂献
Borcard D, Legendre P (2002) All-scale spatial analysis of ecological data by means of principal coordinates of neighbour matrices. Ecological Modelling, 153, 51–68. Legendre P, Borcard D, Peres-Neto PR (2005) Analyzing beta diversity: partitioning the spatial variation of community composition data. Ecological Monographs, 75, 435–450. Legendre P, Borcard D, Peres-Neto PR (2008) Analyzing or explaining beta diversity? Comment. Ecology, 89, 3238–3244.
Lepx J, Smilauer P (2003) Multivariate Analysis of Ecological Data Using CANOCO. Cambridge University Press, Cambridge.
Petchey OL, Gaston KJ (2006) Functional diversity: back to basics and looking forward. Ecology Letters, 9, 741–758.
ter Braak CJF, Smilauer P (2002) CANOCO Reference Manual and CanoDraw for Windows Ur's Guide: Software for Canonical Community Ordination. Version 4.5.
Microcomputer Power, Ithaca, New York.
ter Braak CJF, Smilauer P (2012) CANOCO Reference Manual and Ur's Guide: Software for Ordination. Version 5. Microcomputer Power Ithaca, New York.
von Wehrden H, Hanspach J, Bruelheide H, Wesche K (2009) Pluralism and diversity: trends in the u and application of ordination methods 1990–2007. Journal of Vegetation Science, 20, 695–705.
Zhang JT (张⾦屯) (2004) Quantitative Ecology (数量⽣态学).
Science Press, Beijing. (in Chine)
(责任编辑: 周⽟荣)
附图I Canoco 5的⼯作界⾯(/doc/a67a9f0028ea81c759f578d6.html /fileup/PDF/w2013-133-1.pdf)
附图II数据从Excel导⼊Canoco 5的界⾯(/doc/a67a9f0028ea81c759f578d6.html /fileup/PDF/w2013-133-2.pdf)
附图III数据导⼊后Canoco顾问提供的选择排序类型的建议(/doc/a67a9f0028ea81c759f578d6.html
/fileup/PDF/w2013-133-3.pdf) 附图IV以多边形或椭圆形区分排序空间内的不同类群
(/doc/a67a9f0028ea81c759f578d6.html /fileup/PDF/w2013-133-4.pdf)
附图V PCoA分析设置向导界⾯(/doc/a67a9f0028ea81c759f578d6.html /fileup/PDF/w2013-133-5.pdf)
附图VI⽅差分解分析的界⾯(/doc/a67a9f0028ea81c759f578d6.html /fileup/PDF/w2013-133-6.pdf)
附图VII 限制性排序分析中单个解释变量的显著性检验界⾯(/doc/a67a9f0028ea81c759f578d6.html
/fileup/PDF/w2013-133-7.pdf) 附图VIII直接显⽰各个限制性排序轴显著性检验结果
(/doc/a67a9f0028ea81c759f578d6.html /fileup/PDF/w2013-133-8.pdf)
附图IX PCNM分析设置界⾯, 可以定义样⽅点的坐标(/doc/a67a9f0028ea81c759f578d6.html
/fileup/PDF/w2013-133-9.pdf)
附图X Canoco 5内功能性状与谱系分析相关界⾯(/doc/a67a9f0028ea81c759f578d6.html
/fileup/PDF/w2013-133-10.pdf)