如何做组间差异检验_基于距离的差异检验方法

更新时间:2023-05-11 11:45:49 阅读: 评论:0

如何做组间差异检验_基于距离的差异检验⽅法
简单总结⼀下常见的基于距离的差异检验⽅法  常规的 T 检验、⽅差分析等,可以⽤于⽐较组间变量的差异⽔平。由于这些常规⽅法都是对于 1-2 个特定变量⽽⾔的,那么如果我们想⽐较所有变量整体的差异,或者说各组对象间在变量组成上是否存在较⼤的不同,应该怎样做呢? 多变量情形下,可能会⾸先想到使⽤ PCA 等排序分析⽅法去降维,然后在低维空间的排序图中观测对象的离散程度,组间区分是否明显等。 然后我们⾸先看下⾯这个 PCA 。 排序图中,显⽰ tosa 与 virginica 或 versicolor 之间区分明显, virginica 和 versicolor 之间存在⼀定程度的重叠。这种组间的区分程度是我们直接通过眼睛观测的,那么,通过观测的评估是否是准确的?⽐⽅说, tosa 与 virginica 或 versicolor 之间在变量组成上是否真的存在显著差异呢?类似地, virginica 和 versicolor
在 PCA 图中区分不明显,那么它们真的⽆区别吗(是否存在潜在差异)?
由于PCA只是探索性分析,⽤于描述数据分布,不涉及统计检验,因此⽆法给出⼀个指标(如p值)作为我们评估组间差异程度的标准。尽管很多情况下可能并不需要,但如果存在必要,我们还需结合其它⽅法⽤作评估。
这⾥就需要考虑特定的统计检验⽅法,⽤作组间差异分析。
对于多变量情形下的组间差异分析,可能⾸先会想到多元⽅差分析(MANOVA)。然⽽,MANOVA的有效性取决于严格的前提假设,如多元正态性、⽅差-协⽅差矩阵的同质性等,导致在实际情况中⼤部分案例都是直接拒绝的,因此MANOVA不具普适性。考虑到这⼀点,统计学家们已经提出了许多⽅法替代经典的MANOVA,它们在⽐较多变量的组时更为稳健,并得到了⼴泛应⽤。
其中⼀些⽅法并⾮直接通过原始的变量作⽐较,⽽是⾸先基于多变量计算对象间的“距离”,然后将距离测度⽤作检验的输⼊,进⽽确定各组对象间的差异程度。这类⽅法通常称为“基于距离的检验⽅法”(Distance‐Bad Tests),常见的如置换多元⽅差分析(PERMANOVA)、相似性分析(ANOSIM)、Mantel test等。
好了,到这⾥就开始接本篇的正⽂部分了,简单地对这些常见的基于距离的检验⽅法作个概述。
上⽂描述通过PCA这个⽰例,仅为引出“基于距离的检验⽅法”这个概念,以加深⼤家对这种⽅法的印象。请允许我以这种⽅式作为本篇的开头,尽管降维排序与统计检验是相互独⽴的两种统计⽅法。
实际的⽐较分析中,这种基于距离的检验⽅法也并不总和PCA这些降维分析结合在⼀起。如上所述,在分析变量间的差异后,期望通过全局变量⽔平评估对象间的区别,这是它们常出现的应⽤场景。
PERMANOVA
⾸先是最⼴为熟知的置换多元⽅差分析(Permutational multivariate analysis of variance,PERMANOVA),⼜称⾮参数多因素⽅差分析(nonparametric multivariate analysis of variance),或者ADONIS分析,其基于伪F值的置换检验,通过对两组或两组以上对象距离平⽅和的分解检验它们之间有⽆差异的⾮参数⽅法(Anderson, 2001)
PERMANOVA计算过程概括如下:
(1)根据变量组成信息,计算对象间的距离;
(2)计算所有对象的平均距离(SS T);
(3)计算组内对象之间的平均距离(SS W);
(4)计算组间的平均距离(SS A= SS T - SS W);
(5)计算F值,式中N为数据集中的对象总数,a为分组数量。
之后通过随机置换的⽅式,计算置换后数据的伪F值。多次置换后,伪F值⼤于观测F值的概率即为p值。
p值即代表了检验的显著性信息,p 越低越显著。
ANOSIM
相似性分析(Analysis of similarities,ANOSIM)是⼀种⽤于分析⾼维度数据组间相似性的⾮参数检验⽅法,它通过检验组间的差异是否显著⼤于组内差异,评判⽬标分组是否有意义(Clark, 1993)。
⾸先根据变量组成信息,计算对象间的距离,将所有距离从⼩到⼤进⾏排序后(最⼩距离的对象距离排位1,以此类推)计算R值。R值可以得出组间与组内⽐较的差异程度,其取值范围(-1,1);R>0,说明组间差异⼤于组内差异,即组间差异显著;R<0,说明组内差异⼤于组间差异;R值的绝对值越⼤表明相对差异越⼤。
计算如下,其中,`r a为组间(Among groups,或称Between groups)距离排位的平均值,`r w为组内(Within groups)距离排位的平均值,n为测试的对象总数。
之后通过随机置换的⽅式,计算置换后数据的R值(R*)。多次置换后,随机R*⼤于观测R值的概率即为p值。p值即代表了检验的显著性信息,p越低表明越容易接受观测R值,ANOSIM结果越可信。
Mantel test
尽管Mantel test通常⽤于确定两个距离矩阵的相关性,但也可⽤于检验假设或模型。通过在模型矩阵中⽐较组间距离与组内距离的差异程度,⽤以确定分组是否显著。此时Mantel test和ANOSIM的⼯作⽅式相似,但其特殊形式在于,为模型矩阵选择的特定值是根据距离数值本⾝⽽⾮根据排位确定的。
如下概括了Mantel test确定分组差异的⽅法(⽽⾮相关性,对于Mantel test确定两矩阵间相关性的⽅法,可参考前⽂)。
MRPP
MRPP(Multi Respon Permutation Procedure)基于组内和组间差异的置换检验,确定两组或两组以上数据集有⽆差异的⾮参数过程(Mielke, 1976)。
⾸先根据变量组成信息,计算对象间的距离,并计算各组内对象间的平均距离(`d i),之后计算δ值(组内距离的加权平均)。下式中g为总分
组的数量;n i表⽰第i个分组的对象数量,N为数据集中的总对象数量;注意有的公式中n和N使⽤⾃由度(即对象数量-1)。
之后通过随机置换的⽅式,计算置换后数据的δ值(δ*)。多次置换后,δ*⼩于初始δ的概率即为p值。p值即代表了检验的显著性信息,p 越低表明越容易接受观测δ值,MRPP结果越可信。
MRPP结果中通常会提供两种δ值:obrved δ,即直接由公式计算的观测δ,值越⼩表明组内差异越⼩;以及expect δ,由置换过程得到的平均δ,值越⼤暗⽰了组间差异越⼤。
同时会结合obrved δ和expect δ再计算⼀个简称为A值(chance-corrected within group agreement)的统计量。⼩于0表明组内差异⼤于组间差异,⼤于0表明组间差异⼤于组内差异。
关于⽅法的选择
对于具体选择哪种⽅法⽤于分析,考虑到在⽅法选择上本⾝就存在很多主观因素在⾥⾯,以下可以提供⼀些参考建议。
数据离散程度对各⽅法的影响
对于真实的数据集,PERMANOVA通常(但并⾮总是)⽐其它⽅法更强⼤。
总体⽽⾔,ANOSIM和Mantel test对离散程度⽐较敏感,⼆者中,ANOSIM通常⽐Mantel test更敏感。PERMANOVA在很⼤程度上不受均衡设计异质性的影响,也不受相关结构差异的影响。
对于⾮平衡的设计,上述所有的检验⽅法:当较⼩的组具有更⼤的异质性时过于宽松;当较⼤的组具有更⼤的异质性时过于保守,尤其是ANOSIM和Mantel test。也即表明,它们在不平衡设计中使⽤时需谨慎对待结果。
对于平衡设计,PERMANOVA可以在所选相似度量的范围内严格确定位置与分散效应;ANOSIM和Mantel test可以⽤作更多的“综
合”测试,对组间位置、离散度或相关结构的差异敏感。
对于与排序分析相结合
如本篇开始提到的,这种基于距离的检验⽅法常和排序分析⼀起使⽤,很多⽂献中将它们与PCA、PCoA、NMDS等结合在⼀起,共同描述组间差异⽔平。
如下⽂献,显⽰了24个样品(2×2分组)的Bray-Curtis相异矩阵的NMDS分析,结合ANOSIM确定显著⽔平(Mendes et al, 2014)。

本文发布于:2023-05-11 11:45:49,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/fanwen/fan/90/104481.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:差异   组间   距离   对象   检验   分析   计算
相关文章
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图