vegan稀释曲线基因丰度_如何绘制带置信区间的物种积累曲线

更新时间:2023-06-14 18:19:30 阅读: 评论:0

vegan稀释曲线基因丰度_如何绘制带置信区间的物种积累曲
线
背景
稀释曲线(Rarefaction curves)是从样品中随机抽取⼀定测序量的数据(序列条数),统计它们所对应的OTUs种类(代表物种),并以抽取的测序数据量与对应的代表OTUs来构建曲线。
⼀般情况下,横坐标代表随机抽取的序列数量,纵坐标代表观测到的OTUs种类数量,样本曲线的延伸终点的横坐标位置为对应样本的测序数量,反映了Alpha多样性中的物种丰富度指数(Richness)信息。
稀释曲线可直接反映测序数据量的合理性,并间接反映样品中物种的丰富程度,当曲线趋向平坦时,说明测序数据量渐进合理,更多的数据量只会产⽣少量新OTUs(物种);反之表明不饱和,增加数据量可以发现更多OTUs。
⼀般稀释曲线使⽤vegan包进⾏计算绘图,或通过gglot进⾏绘制。今天看到⼀篇⽂献,它展⽰的稀释曲线就很有趣,既包含了置信区间,⼜包含了预测值,就让我们来看看这样的稀释曲线是如何绘制的。
这⾥⽤到了iNEXT这个R包,iNEXT⽤于分析⽤于物种多样性的稀疏性和外推(通过假设现有趋势将继续
或当前⽅法仍然适⽤来估计或得出结论的动作,通过观察到的物种数量进⾏合理的外推,可以获得理论物种数)
iNEXT专注于q阶希尔数(hill numbers)的三种度量:物种丰富度(q = 0),Shannon(q = 1)和Simpson(q = 2)。对于每个多样性度
量,iNEXT使⽤观察到的丰度或发⽣率数据来计算稀疏样本和外推样本的多样性估计以及相关的95%(默认)置信区间,并绘制稀疏和外推(R / E)曲线。
Hill⼀开始是均匀度 (evenness index) 的⼀个指数。后来才被⽤于表征alpha多样性:
S是物种数;Pi是i物种相对丰度;q是多样性阶数
对于q=1, Hill没有定义,但是当q接近1时,它的极限以如下形式存在:
q决定了多样性指数的灵敏性。
q = 0, 计算物种数量;
q = 1, 计算指数的Shannon entropy,意义为群落中典型或常见的物种数量;
q = 2, 计算Simpson index,意义为群落中优势种或⾼丰度种的数量。
好了,不废话了,进⼊正题吧
iNEXT软件包在CRAN上可⽤,并且可以使⽤下⾯显⽰的命令通过标准安装过程下载。也可以从github下载。对于⾸次安装,必须加载其他可视化扩展程序包(ggplot2), iNEXT包的R适⽤版本为3.4及以上。
## install iNEXT package from CRAN
install.packages("iNEXT")
## install iNEXT from github
install.packages('devtools')
疼痛的
library(devtools)
install_github('AnneChao/iNEXT')
## import packages
library(iNEXT)
library(ggplot2)
主要功能:iNEXT()
iNEXT(x,q = 0,datatype =“ abundance”,size = NULL,endpoint = NULL,knots = 40, = TRUE,conf = 0.95,nboot = 50 )
此主要功能计算q阶的多样性估计值,样本覆盖率估计值和⼤⼩为1的端点与端点之间的K(如果结节= K)均匀间隔的结点(样本⼤⼩)的相关统计量,其中端点如下所述。每个结代表⼀个特定的样本⼤⼩,将为此计算多样性估计。默认情况下,将端点设置为参考样本⼤⼩的两倍。
该函数返回⼀个“ iNEXT”对象,该对象可以进⼀步使⽤下⾯要描述的函数ggiNEXT()进⾏绘图。
大人尿床
Argument
Description
x
矩阵,data.frame,物种丰度/发⽣率列表或发⽣频率列表
q
⼀个数字或向量,指定希尔数字的多样性顺序,可以设置为0/1/2
datatype
输⼊的数据类型,指定 “abundance”, “incidence_raw”, 或 “incidence_freq”
size
为什么要拜年样本⼤⼩的整数向量,将为此计算出多样性估计。如果为NULL,则将为由指定的/默认的端点和结点确定的那些样本⼤⼩计算多样性估计
endpoint
⼀个整数,指定作为R / E计算终点的样本⼤⼩;如果为NULL,则端点=参考样本⼤⼩的两倍
knots
⼀个整数,指定⼤⼩1和端点之间的等距结数(默认为40)
逻辑变量,⽤于计算conf指定级别的引导标准误差和置信区间;
conf
<1的正数,指定置信区间的⽔平
nboot
⼀个整数,指定引导复制的数量
数据格式/信息
⽀持三种类型的数据:(“abundance”,“ incidence_raw”或“ incidence_freq”):
基于个体的丰度数据(数据类型=“abundance”):每个集合/场所的输⼊数据包括n个个体的经验样本中的样本物种丰度。当有N个组合时,输⼊数据由S×N的丰度矩阵或N个物种丰度列表组成。
基于采样单位的关联数据:输⼊数据有两种。
1.发病率-原始数据(数据类型=“ incidence_raw”):对于每个组合,参考样本的输⼊数据由按采样单位的物种矩阵组成;当有N个组合时,输⼊数据由N个矩阵列表组成,并且每个矩阵都是按采样单位分类的矩阵。
2.⼊射频率数据(数据类型=“ incidence_freq”):每个组合的输⼊数据由物种样本⼊射频率(每个⼊射矩阵的⾏和)组成。当有N个组合时,输⼊数据由S + 1×N矩阵或N个物种⼊射频率列表组成。每个列/列表的第⼀项必须是采样单位总数,其后是物种发⽣频率。
iNEXT软件包中包括四个数据集(spider 和 bird⽤于丰度数据,ant 和 ciliates⽤于⼊射数据),⽤于说明数据输⼊格式和运⾏过程。
基本图形显⽰:功能ggiNEXT()
ggiNEXT(x,type = 1, = TRUE,facet.var =“ none”,color.var =“ site “,grey= FALSE)
这⾥x是⼀个“ iNEXT”对象。允许使⽤三种类型的曲线:(1)具有置信区间(如果 = TRUE)的基于样本⼤⼩的R / E曲线(type= 1)。(2)具有置信区间(如果 = TRUE)的样本完整性曲线(type= 2)。(3)具有置信区间(如果 = TRUE)的基于覆盖率的R / E曲线(type= 3)。
始字组词参数facet.var(“ none”,“ order”,“ site”或“ both”)⽤于为指定变量的每个值创建单独的图。当facet.var
=“ both”时,我们可以进⼀步使⽤参数color.var(“ none”,“ order”,“ site”或“ both”)为指定的每个值以不同的颜⾊显⽰曲线变量。⽤户还可以使⽤参数grey = TRUE绘制⿊⽩图形。
Spider数据的提取/外推(丰度数据)
data(spider)
out
# Sample-size-bad R/E curves, parating plots by "site"
秦始皇介绍ggiNEXT(out, type=1, facet.var="site")
#基于样本⼤⼩的R / E曲线,按“顺序”分隔图
ggiNEXT( out, type = 1, facet.var = “ order ”)
要链接样本⼤⼩和基于覆盖率的采样曲线,⾸先使⽤以下命令检查样本完整性曲线将是不错的选择:
ggiNEXT(out,type = 2)
先知维伦
如何锻炼腰肌
以下命令返回基于coverage的R / E采样曲线。ggiNEXT()函数中的参数facet.var =“ site”为每个站点创建⼀个单独的图,如下所⽰:
ggiNEXT(out,type = 3,facet.var = “ site ”)
参数facet.var =“ order”为每个多样性顺序以及每个图内创建⼀个单独的图,如下所⽰。
ggiNEXT(out,type = 3,facet.var = “ order ”)
上⾯的图形显⽰描绘了典型的颜⾊图,以标准化⽣物多样性样品,以便⽐较同等⼤⼩(基于样本⼤⼩)或同等完整(基于覆盖率)的样本。下⾯介绍更多图形显⽰选项。
#按“顺序”分隔图,并显⽰⿊⽩图
ggiNEXT( out, type = 1, facet.var = “ order ”, grey = TRUE)
最后来个简单的实例吧
⽐如我这⾥现在有⼀个注释后得到的otu丰度表
我们可以这样操作
install.packages("iNEXT")
library(iNEXT)
library(ggplot2)
data = read.table("",p="\t",header=T)
附怎么组词otutable=as.data.frame(data[,-c(1,8)])#这⾥根据⾃⼰的数据类型来进⾏选择,参考中第⼀列与第⼋列不需要保留
otu
ggiNEXT(otu, type=1)
怎么样,是不是很简单呢?
参考
Chao, A., Gotelli, N.J., Hsieh, T.C., Sander, E.L., Ma, K.H., Colwell, R.K. & Ellison, A.M. (2014) Rarefaction and extrapolation with Hill numbers: a framework for sampling and estimation in species
diversity studies. Ecological Monographs, 84, 45–67.
Chao, A. & Jost, L. (2012) Coverage-bad rarefaction and extrapolation: standardizing samples by completeness rather than size. Ecology, 93, 2533–2547.
Colwell, R.K., Chao, A., Gotelli, N.J., Lin, S.-Y., Mao, C.X., Chazdon, R.L. & Longino, J.T. (2012) Models and estimators linking individual-bad and sample-bad rarefaction, extrapolation and comparison of asmblages. Journal of Plant Ecology, 5, 3–21.
Hsieh, T.C., Ma, K.H. & Chao, A. (2016) iNEXT: An R package for interpolation and extrapolation of species diversity (Hill numbers). Methods in Ecology and Evolution, 7, 1451-1456.

本文发布于:2023-06-14 18:19:30,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/fanwen/fan/82/954350.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:样本   物种   曲线   数据   指定   计算   数量   置信区间
相关文章
留言与评论(共有 0 条评论)
   
验证码:
推荐文章
排行榜
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图