⾼通量测序科研⼊门常⽤名词意义整理
微⽣物⾼通量测序
相关名词概念解析
作者:happy
⽬录
⼀、OTU分类和统计 (2)
⼆、⽣物信息分析 (2)
三、16SrRNA (3)
四、Alpha多样性 (4)
renfeng五、稀疏性分析(rarefaction analysis)和稀疏性曲线(rarefaction curve) (7)
六、Shannon-Weiner指数 (8)
中秋快乐 英文
七、Rank Abundance 曲线 (9)
chee⼋、微⽣物种属鉴定及相关分析 (10)
九、OTU群落聚类及相关分析 (14)
⼗、Rank Abundance 曲线 (15)
⼗⼀、韦恩图(Venn) (16)
⼀、OTU分类和统计
OTU(operationaltaxonomicunits)是在系统发⽣学研究或群体遗传学研究中,为了便于进⾏分析,⼈为给某⼀个分类单元(品系,种,属,分组等)设置的同⼀标志。通常按照97%的相似性阈值将序列划分为不同的OTU,每⼀个OTU通常被视为⼀个微⽣物物种。相似性⼩于97%就可以认为属于不同的种,相似性⼩于93%-95%,可以认为属于不同的属。样品中的微⽣物多样性和不同微⽣物的丰度
都是基于对OTU的分析。
Coverage是指各样品⽂库的覆盖率,其数值越⾼,则样本中序列没有被测出的概率越低。该指数实际反映了本次测序结果是否代表样本的真实情况。
计算公式为:C=1-n1/N其中n1=只含有⼀条序列的OTU的数⽬;N=抽样中出现的
accountant
总的序列数⽬。
分类⽔平统计表主要是对每个样本在分类学⽔平上的数量进⾏统计,并且在表格中列出了在每个分类学⽔平上的物种数⽬(只显⽰前10个样本,如果样本超过
10个,请查看结果中⽂件)
其中SampleName表⽰样本名称;Phylum表⽰分类到门的OTU数量;Class表⽰分类到纲的OTU数量;Order表⽰分类到⽬的OTU数量;Family表⽰分类到科的OTU数量;Genus表⽰分类到属的OTU数量;Species表⽰分类到种的OTU数量。
⼆、⽣物信息分析
wave flag1.数据统计分析
1)有效测序数据统计欲望都市第六季
2)可供精准分析的数据统计
2.数据回归样品
1)根据tag信息将测序数据回归各⾃样品
3.单样品微⽣物种类及丰度分析
1)序列聚类OTU(OperationalTaxonomicUnits)
2)取样深度判定(RarefactionCurve)
3)计算菌群多样性和丰度指数
4)单样品群落结构分析mys
4.多样品间⽐较分析
1)全样品相似度⽐对
2)多样品OTU⽐较
3)多样品群落结构分析
4)PCA(Principalcomponentanalysis)分析
5)WeightedunifracPCA分析
6)组间显著性差异分析
三、16SrRNA
为核糖体的RNA的⼀个亚基,16SrDNA就是编码该亚基的基因。细菌rRNA (核糖体RNA)按沉降系数分为3种,分别为5S、16S和23SrRNA。16SrDNA是细菌染⾊体上编码16SrRNA相对应的DNA序列,存在于所有细菌染⾊体基因中。
16SrDNA是细菌的系统分类研究中最有⽤的和最常⽤的分⼦钟,其种类少,含量⼤(约占细菌DNA含量的80%),分⼦⼤⼩适中,存在于所有的⽣物中,其进化具有良好的时钟性质,在结构与功能上具有⾼度的保守性[2],素有“细菌化⽯”之称。在⼤多数原核⽣物中rDNA都具有多个拷贝,5S、16S、23SrDNA的拷贝数相同。16SrDNA由于⼤⼩适中,约1.5Kb左右,既能体现不同菌属之间的差异,⼜能利⽤测序技术较容易地得到其序列,故被细菌学家和分类学家接受。16SrRNA与16SrDNA的区别
16S中的"S"是⼀个沉降系数,亦即反映⽣物⼤分⼦在离⼼场中向下沉降速度的⼀个指标,值越⾼,说明分⼦越⼤。rDNA和rRNA中的⼩写字母"r"是ribosome(核糖体)的缩写。rDNA指的是基因组中编码核
糖体RNA(rRNA)分⼦的对应的DNA序列,也就是编码16SrRNA的基因。rRNA指的是rDNA的转录产物,它是构成核糖体的重要成分,核糖体由许多⼩的rRNA分⼦组装⽽成,16SrRNA 是其中⼀个组件.⼀般所分析的对象都是16srDNA,因为DNA提取容易,也⽐较稳定。
16S rRNA具有多项功能。
1.对于核糖体蛋⽩的固定起到脚⼿架的作⽤。
2.3'末端包含反向的SD序列,⽤来与mRNA的AUG起始密码⼦结合。16S rRNA的3'端与S1、S21的结合被发现与蛋⽩质合成的开始有关系。
3.与23S进⾏交互,帮助两个核糖体⼦单元的结合。(50S+30S)
sheep可数吗
4.在A site 稳定密码⼦与反密码⼦的正确配对。
16SrDNA鉴定⽅法
随着⽣物技术的飞速发展,传统的微⽣物鉴定⽅法常常难以鉴定众多的⽣长习性复杂的微⽣物,因⽽基于基因组序列的分⼦鉴定受到⼴泛关注。在细菌基因组中,编码16SrRNA的rDNA基因具有良好的进化保守性,适宜分析的长度(约为1540bp),以及与进化距离相匹配的良好变异性,所以成为细菌
分⼦鉴定的标准标识序列。16SrDNA的序列包含9或10个可变区(variableregion)和11个恒定区(constantregion)。保守序列区域反映了⽣物物种间的亲缘关系,⽽⾼变序列区域则能体现物种间的差异。16SrDNA分⼦的序列特征为不同分类级别的近缘种系统分类奠定了分⼦⽣物学基础。⽬前16SrDNA的序列信息已经⼴泛应⽤于菌种鉴定和系统发⽣学研究。
16SrDNA数据分析
初始数据层⾯:质量统计,序列长度及分布统计,数据预处理,有效序列统计。
OTU层⾯:OTU分类学统计,Alpha多样性分析,稀疏性曲线,Shannon-Wiene 曲线,Rankabundance曲线。
物种丰度层⾯:物种分类注释,Beta多样性分析,样本间OTU差异分布分析,OTU丰度分布聚类分析,主成分分析,显著性差异分析,样本组间差异分析。
群落结构层⾯:多样本物种分布⽐较,群落相似度⽐较,群落相似度PCoA 分析,基于组间进化的差异显著性
(Un)WeightedUnifrac分析,R DA/CCA菌群与环境因⼦之间的关系分析,系统发育树的构建,含种类分级的进化树的构建。
四、Alpha多样性
在微⽣物多样性分析的报告中主要包括五个部分:Alpha多样性分析、Beta 多样性分析、物种组成分析、进化关系分析、相关性分析,其中Alpha多样性分析是⽣态学中⽣物多样性的⼀个重要的组成部分,也是⽐较基础的⼀部分。
Alpha多样性是指⼀个特定区域或⽣态系统内的多样性,是反映丰富度和均匀度的综合指标。Alpha多样性主要与两个因素有关:⼀是种类数⽬,即丰富度;⼆是多样性,群落中个体分配上的均匀性。群落丰富(Communityrichness)的指数主要包括Chao指数和ACE指数。群落多样性(Communitydiversity)的指数,包括Shannon指数和Simpson指数。(Simpson指数是评价优势度,
Shannon 是评价多样性;Simpson指数越⾼代表物种多样性越低;Simpson指数和Shannon 指数是相反关系)
群落丰富度指
Chao:是⽤chao1 算法估计群落中含OTU 数⽬的指数,chao1 在⽣态学中常⽤来估计物种总数,由Chao (1984) 最早提出。
Ace:⽤来估计群落中含有OTU 数⽬的指数,由Chao 提出,是⽣态学中估计物种总数的常⽤指数之⼀,与Chao1的算法不同。
Chao和Ace越⼤,说明群⾥中含有的OTU数⽬越多,群落的丰富度越⼤。
群落多样性指数
Simpson:是⽣态学中常⽤的⼀个指数,它反映的是优势种在群落中的地位和作⽤,若⼀个群⾥中优势种占的多,其他⾮优势物种所占的⽐例则会减少,这说明Simpson 指数值越⼤,说明群落多样性越低,它与其他多样性指数均呈负相关。
Shannon:⽤来估算样品中微⽣物的多样性指数之⼀。它与Simpson 多样性指数均为常⽤的alpha 多样性的指数。Shannon值越⼤,说明群落多样性越⾼。
Coverage:是指各样品⽂库的覆盖率,其数值越⾼,则样本中序列没有被测出的概率越低。该指数实际反映了本次测序结果是否代表样本的真实情况。
在评价样本的Alpha多样性时,既要考虑丰富度,⼜要考虑多样性,需根据上述指数综合考虑评价。
分析软件:mothur [1] ( version v.1.30.1 /doc/5c0860f4d6d8d15abe23482fb4daa58da0111c2e.html
pgl
/wiki/Schloss_SOP #Alpha_ diversity) 指数分析,⽤于指数评估的OTU 相似⽔平97% (0.97)
211大概要多少分
Table:Community richness estimator
Table:Community richness estimator
注:由于数据样品较多,此处以图例形式列出部分。其中label:0.03 即相似⽔平;
样本信息及多样性指数统计结果如下:
Table :Estimators table
注:Sample ID:样品名称;Reads:被分⼊所有OTU 中的总优化序列数;
OTU:本次实验中该样品优化序列划分得到的OTU 数⽬;
Chao,Ace,Coverage,Shannon,Simpson:分别表⽰各个指数;
0.03:相似性⽔平为0.97。
五、稀疏性分析(rarefaction analysis)和稀疏性曲线(rarefaction curve)
只能通过设计科学的采样⽅式抽取少量样品来估算,Rarefaction就是其中⼀种基于核酸⽔平的微⽣物多样性分析⽅法,通过统计学分析⽅法计算单⼀类型的物种在相应的⼤类⾥所占的⽐例。
稀疏性曲线(rarefaction curve):⼀般是从样本中随机抽取⼀定数量的个体,统计出这些个体所代表物种数⽬,并以个体数与物种数来构建曲线。它可以⽤来⽐较测序数量不同的样本物种的丰富度,也可以⽤来说明样本的取样⼤⼩是否合理。分析采⽤对优化序列进⾏随机抽样的⽅法,以抽到的序列数与它们所能代表OTU的数⽬构建rarefaction curve。
简单来说,稀疏性曲线与Coverage类似,Rarefaction是以16S rDNA序列条带数⽬为横坐标,操作分类单元(OUT)数⽬为纵坐标的⼀条曲线,斜率逐渐平缓,即随着16S rDNA序列条带数⽬增加,OTU数⽬也增加。当最后曲线趋向平坦时,说明取样的数量合理,更多的取样只会产⽣少量新的OTU,反之则表明继续取样还可
能产⽣较多新的OTU。因此,通过作稀释性曲线,可以反应出样品的取样深度情况。默认是在 97%相似性⽔平下划分OUT并制作各样品的稀疏曲线。