5 约束排序与置换检验(Constrained Ordination and
Permutation tests)
在这一章,我们将讨论约束排序及其相关的内容:环境因子的逐步筛选,蒙特卡罗置换检验和变量分解分析。标准日语初级单词>外相
5.1 线性多元回归模型(Linear multiple regression model)
首先,我们必须回顾一下传统的线性回归模型,因为这对于我们理解“直接梯度分析”(约束排序)相当重要。
图5-1展示的是最简单的线性回归模型,线性模型可以模拟响应变量Y依赖自变量X的程度。图5-1中不仅有拟合回归线,也展示了模拟值和实测值之间的差别。模拟值^Y i (回归线上的值)与实测值Y i之间的差值叫做回归残差(regression residual),用e表示。
所有的统计模型(statistical models,包括回归模型)有个重要的特征是它们都有两个主要的部分构成:系统组成部分(systematic component)表示响应变量中能被一个或更多的解释变量(模型)解释的部分,这部分用带参数的函数表示。另外一部分就是随机部分(stochastic component),表示不能被目前解释变量(模型)所能解释的部分。随机部分通常用概率和分布特性来定义。
avance
我们通常通过响应变量有多少能够被系统组成部分解释来评估拟合模型的好坏。也经常将能被解释和未被解释的部分进行比较。目的在于,尽力去构建一个最简约的回归模型来解释最多的变化量,让所有的自变量对于响应变量的解释都有显著贡献。我们可以通过逐步迭代(回归)(stepwi lection)的方式来选择解释变量(环境变量)的子集合,在排序术语中往
往叫预选(forward lection)。预选变量的过程是无响应变量的零和假设开始,零和假设是响应变量中没有可以被解释变量预测,而仅仅由随机变量解释。当我们选择一个解释变量(环境变量)进入分析,可以导致回归模型能解释一部分响应变量。可以根据所加入的变量所能解释部分的大小来确定是否选择的该环境变量。另外,需要用随意置换(randomly swap)环境因子的值来检验这种解释量是偶然的,还是真的为环境变量所解释? 如果被检验的变量所能解释的部分被证明是非随机的(统计显著), 我们就可以接受这个变量。可以重复这个过程,再进一步从剩下的变量中选择另外更好的变量,直到选择具有足够的变量为止。
weed5.2 约束排序模型(Constrained ordination model)
在第三章,非约束的排序(PCA 和CA)被定义为寻找潜在的梯度代表最优的解释变量(预测器)来拟合物种的回归模型。
约束排序跟非约束的排序有一个很大的区别,非约束排序是虚拟的(潜在的)梯度、而约束排序的梯度是明确给出的。这些梯度(排序轴)是参与排序的环境变量的线性组合。因此我们通过合成变量(排序轴)尽力解释物种的多度变化,这些合成变量是实测环境变量的线性组合。
因此,约束排序方法(RDA和CCA)类似于多元多重回归。但在多元多重回归中,如果有m个响应变量,p个环境因子,我们必须估计出m×p个的参数(回归系数)(每个方程需要p个参数,m个方程自
然是需要m×p个的参数)。然而,在约束排序里面,不必这么麻烦,环境因子对于响应变量的影响被集中在几个合成的梯度(排序轴),也叫典范轴(canonical axes)。典范轴的数量是跟独立解释变量的数量一样多,但是我们经常使用前面几轴。
少儿英语1对1外教在CANOCO里面,如果有协变量(covariables),我们经常使用偏分析(partial analys)。有协变量情况,表示我们要将这些协变量的所能解释的部分先剔除出去。协变量在方差分析中也有相同的用法,通常是把量化的协变量作为一种因子处理。而在传统的回归中,协变量的概念是不常用的,协变量与真变量没有什么不同,叫法不同而已。
5.3 RDA :约束的PCA(RDA: constrained PCA)
权益法核算
上一节提到关于RDA(redundancy analysis)的概念,其实RDA就是PCA的约束排序。下面以两个环境变量(Z1和Z2)跟第一排序轴(第一主分量)来说明RDA的运算过程。
PCA和RDA排序的目的均是寻找新的变量作为最好的预测器来预测物种(响应变量)分布。我们设立这个新变量为X(假设是第一轴)。跟实测的环境变量一样,X在每个样方里面有个对应的值。假定这个新变量在第i个样方的值为X i,那么第k个物种在第i样方的值可以通过下面的公式来预测。
在这里,无论是PCA还是RDA,都必须估计两套参数:X i和b1k。X i的值是样方在第一轴
的坐标。每个物种回归系数b1k,代表物种在第一轴的坐标。另外一个参数b0k代表回归拟合线的截距,可以通过原始数据的中心化将它归零(详见4.4节)。
其实,到这里为止,PCA和RDA样方坐标X i算法是相同的。但后来,RDA样方的坐标值X i是经过约束的,是环境因子的线性组合。在这里举例说明计算过程,假设有两个实测的环境变量Z1和Z2,新变量X i可以表示为环境变量Z1和Z2线性组合
注意这里的参数C1和C2并不是环境因子在第一轴的坐标,而是Canoco分析结果里面回归系数,仅仅表示环境因子与排序轴之间的相关性。
我们可以组合上面两个等式到一个等式里面,实际变成一个多重多元回归方程组:
在这个表达式里面,系数b ik C j代表多元多重回归模型中真正的回归系数(actual coefficients),这个
回归系数描述着k物种的多度取决于j环境因子的程度。如果有m个物种,p 个环境因子,我们需要去估计m*p个回归系数。在RDA里面,我们仅仅需要估计的是被约束的那些回归系数:假设只有一个典范轴,我们仅仅需要估计m+p个参数(b ik和C j参数,b ik是物种与轴之间的回归系数,后者是轴与环境因子自己的关系)。如果是两个轴,仅仅是2(m+p)个参数,相比多元多重回归m*p的系数,的确简单不少。【这是为什么要做约束排序的原因,也说明了如果环境因子和物种的数量很少的时候,是不必做约束排序的,做普通回归即可,m和p比较多的时候,约束排序的优势才能展示出来】福州托福一对一辅导
5.4 蒙特卡罗置换检验引论(Monte Carlo permutation test: an introduction)
CANOCO通过蒙特卡罗置换检验有能力去检验约束排序模型的显著性。这个统计检验
基于普通的零和假设,这里的零和假设就假设物种与环境因子之间是相互独立,不相关的。置换检验的主要原则均在第三章的3.10节和3.11节已经提过,那里举例的完全随机的简单置换。而在CANOCO里面提供了丰富的置换方法,有空间上,有时间上或是逻辑内部结构限制(如图5-2),这些都是与实验设计与样方设计相关的。cookies怎么读
图5-2 展示的是这些置换方法的选择窗口的首页。接下来的4小节将会比较详细怎么选
择合适的置换方法。本书后面的研究案例也会对这些置换方法进行实践。
5.5 零和假设模型(Null hypothesis model)
在CANOCO里面,零和假设是物种矩阵与环境矩阵之间是独立的,简单讲,可以任意调换环境矩阵中各个样方直接的位置,对于约束排序的结果并没有显著影响。
具体的检验过程的算法并不在这里展示。我们仅仅要说明一下置换检验的基本过程:z我们先开始随机置换环境矩阵中样方的位置,然后保持物种的位置不变。这样每置换一次,物种和环境因子之间的组合就发生变化,每次都组成新的组合。
z对每对新的组合,我们重新计算约束排序的过程(回归的过程),每次的算法都是一致,但是每个排序模型的优劣程度并不相同。这里我们可以用F-统计中F统计值
来代表每个排序模型的优劣(将在下一节介绍)。
z如果我们进行了N次置换,将有N个排序模型,也拥有N个F值,做N个F值频度分布(如图5-3)。我们可以找到如果是在不置换的情况下的回归方程的F data值位置。如
果F data的处于图的右边区域,即处于低概率区域(比如说F data值比95%个F值都大,
也就是P<0.05),此时我们可以拒绝零和假设,说明物种和环境因子直接是存在显
著关系的,样方的位置不能随便调换。相反,如果F data值比95%个F值都大,也就
是P>0.05,则不能拒绝零和假设。
5.6检验统计 Test statistics
前面一节描述了置换检验的基本过程,也提到在排序模型的质量检验是用类似于回归模型参数显著性F-统计检验。但因为排序模型的多维性,这个统计在约束排序的确很难定义。一般来说,能被环境因子解释物种的变量,要很多轴一起表示。但是每个典范轴的相对重要性(解释量)从第一轴到最后一轴是逐渐降低的,但我们很少忽略除了第一轴以为的其他轴。因此,我们既关注所有轴的累计解释量,又关注一个轴,通常是第一轴的解释量。在CANOCO 4.5里面有两种对应的置换检验:
z第一轴检验(Test of the first canonical axis)使用F-统计的算法如下:
这的λ1代表第一轴的特征根,也代表第一轴所能解释的变化量。而RSS是残差平方和(the residual sum of square)缩写,代表不能被第一轴所能解释的物种变化量。n是轴的数量,p代表主环境变量的数量,q代表协环境变量的个数。
vickyz所有轴的检验(Test of the sum of the canonical eigenvalues),也就是检测p个解释变
达内ui设计培训学院
量的整体效果。此时F值应该按照这么计算: