各种测序基础知识介绍-转发

更新时间:2023-07-24 06:57:19 阅读: 评论:0

各种测序基础知识介绍-转发
各种测序基础知识介绍
RNA-Seq名词解释
index 测序的标签,⽤于测定混合样本,通过每个样本添加的不同标签进⾏数据区分,鉴别测序样品。
碱基质量值 (Quality Score或Q-score)是碱基识别(Ba Calling)出错的概率的整数映射。碱基质量值越⾼表明碱基识别越可靠,碱基测错的可能性越⼩。
Q30 碱基质量值为Q30代表碱基的精确度在99.9%。
FPKM(Fragments Per Kiloba of transcript per Millionfragments mapped) 每1百万个map上的reads中map到外显⼦的每1K个碱基上的fragment个数。计算公式为 公式中,cDNAFragments 表⽰⽐对到某⼀转录本上的⽚段数⽬,即双端Reads数⽬;Mapped
Reads(Millions)表⽰Mapped Reads总数,以10为单位;Transcript Length(kb):转录本长度,以kb个碱基为单位。
FC(Fold Change) 即差异表达倍数。
摩登家庭第二季下载
FDR(Fal Discovery Rate) 即错误发现率,定义为在多重假设检验过程中,错误拒绝(拒绝真的原(零)假设)的个数占所有被拒绝的原假设个数的⽐例的期望值。通过控制FDR来决定P值的阈值。
P值(P-value) 即概率,反映某⼀事件发⽣的可能性⼤⼩。统计学根据显著性检验⽅法所得到的P 值,⼀般以P<0.05为显著,P<0.01为⾮常显著,其含义是样本间的差异由抽样误差所致的概率⼩于0.05或0.01。
可变剪接(Alternative splicing) 有些基因的⼀个mRNA前体通过不同的剪接⽅式(选择不同的剪接位点)产⽣不同的mRNA剪接异构体,这⼀过程称为可变剪接(或选择性剪接,alternative splicing)。可变剪接是调节基因表达和产⽣蛋⽩质组多样性的重要机制,是导致真核⽣物基因和蛋⽩质数量较⼤差异的重要原因。在⽣物体内,主要存在7种可变剪接类型:A)Exonskipping;B)Intron retention;C) Alternative 5' splice site;D) Alternative3' splice site;E) Alternative first exon;F) Alternativelast exon;G) Mutuallyexclusive exon。
外显⼦跳跃(Exon skipping) 外显⼦在前体mRNA剪接形成成熟mRNA过程中被跳过,最终没有出现在某些成熟mRNA上,这种剪接机制被称为外显⼦跳跃。
测序名词解释:
成分英文Contig N50:Reads拼接后会获得⼀些不同长度的Contigs。将所有的Contig长度相加,能获得⼀个Contig总长度。然后将所有的Contigs按照从长到短进⾏排序,如获得Contig 1,Contig 2,Contig 3……Contig 25。将Contig按照这个顺序依次相加,当相加的长度达到Contig总长度的⼀半时,最后⼀个加上的Contig长度即为Contig N50。举例:Contig 1+Contig 2+ Contig 3+Contig 4=Contig总长度*1/2
时,Contig 4的长度即为Contig N50。Contig N50可以作为基因组拼接的结果好坏的⼀个判断标准。
Scaffold N50:Scaffold N50与Contig N50的定义类似。Contigs拼接组装获得⼀些不同长度的Scaffolds。将所有的Scaffold长度相加,能获得⼀个Scaffold总长度。然后将所有的Scaffolds按照从长到短进⾏排序,如获得Scaffold 1,Scaffold 2,Scaffold 3……Scaffold 25。将Scaffold按照这个顺序依次相加,当相加的长度达到Scaffold总长度的⼀半时,最后⼀个加上的Scaffold长度即为Scaffold N50。举例:Scaffold 1+Scaffold 2+ Scaffold 3 +Scaffold 4 +Scaffold 5=Scaffold总长度*1/2时,Scaffold 5的长度即为Scaffold N50。Scaffold N50可以作为基因组拼接的结果好坏的⼀个判断标准。
Isotig:指在转录组de novo测序时,⽤454平台测序完成后组装出的结果,⼀个isotig可视为⼀个转录本。
Isogroup:指转录组de novo测序中,⽤454平台测序完成后组装出的结果获得的可聚类到同⼀个基因
的转录本群。
GC%:GC含量,全基因组范围内或在特定基因组序列内的4种碱基中,鸟嘌呤和胞嘧啶所占的⽐率。
SNP:singlenucleotide polymorphism,单核苷酸多态性,个体间基因组DNA序列同⼀位置单个核苷酸变异(替代、插⼊或缺失)所引起的多态性;不同物种个体基因组 DNA 序列同⼀位置上的单个核苷酸存在差别的现象。有这种差别的基因座、DNA序列等可作为基因组作图的标志。SNP 在CG序列上出现最为频繁,⽽且多是C转换为T ,原因是CG中的C 常为甲基化的,⾃发地脱氨后即成为胸腺嘧啶。⼀般⽽⾔,SNP 是指变
异频率⼤于1 %的单核苷酸变异,主要⽤于⾼危群体的发现、疾病相关基因的鉴定、药物的设计和测试以及⽣物学的基础研究等。
InDel:Inrtion/Deletion,插⼊/缺失,在基因组重测序进⾏mapping时,进⾏容Gap的⽐对并检测可信的Short InDel,如基因组上⼩⽚段>50bp的插⼊或缺失。在检测过程中,Gap的长度为1~5个碱基
CNV:copy numbervariation,基因组拷贝数变异,是基因组变异的⼀种形式,通常使基因组中⼤⽚段的DNA形成⾮正常的拷贝数量。如⼈类正常染⾊体拷贝数是2,有些染⾊体区域拷贝数变成1或3,这样,该区域发⽣拷贝数缺失或增加,位于该区域内的基因表达量也会受到影响。如果把⼀条染⾊体
分成A-B-C-D四个区域,则A-B-C-C-D/A-C-B-C-D/A-C-C-B-C-D/A-B-D 分别发⽣了C区域的扩增及缺失,扩增的位置可以是连续扩增如 A-B-C-C-D 也可以是在其他位置的扩增,如A-C-B-C-D。
SV:structurevariation,基因组结构变异,染⾊体结构变异是指在染⾊体上发⽣了⼤⽚段的变异。主要包括染⾊体⼤⽚段的插⼊和缺失(引起CNV 的变化),染⾊体内部的某块区域发⽣重复复制、翻转颠换、易位、两条染⾊体之间发⽣重组(inter-chromosome trans-location)等。
基因表达差异:是指某⼀物种或特定细胞在特定时期/功能状态下,多样本间不同基因在mRNA⽔平上表达量的差异,可通过RPKM/FPKM值来体现。
英文请假条RPKM:Reads PerKiloba per Million mapped reads [Mortazavi etal., 2008],是指每 1 百万个map 上 的reads 中 map 到外显⼦的每1K 个碱基上的reads 个数。计算公式四RPKM=106C/NL/103,其中C为唯⼀⽐对到⽬的基因的reads数;N为唯⼀⽐对到参考基因的总reads 数,L是⽬的基因编码区的碱基数。RPKM法可以消除基因长度、数据量之间的差异进⾏计算基因表达量。
可变剪切:alternative splicing⼤多数真核基因转录产⽣的mRNA前体是按⼀种⽅式剪接产⽣出⼀种mRNA,因⽽只产⽣⼀种蛋⽩质。但有些基因产⽣的mRNA前体可按不同的⽅式剪接,产⽣出两种或更多种mRNA,即可变剪接。
基因融合:Gene fusion,将基因组位置不同的两个或多个基因中的⼀部分或全部整合到⼀起,形成新的基因,称作融合基因或嵌合体基因,该基因有可能翻译出融合或嵌合体蛋⽩。
基因家族分析:通过进⾏BLASTN/ HMM⽐对等查找基因归属的基因家族并添加相关功能注释。
基因组注释:Genome annotation是利⽤⽣物信息学⽅法和⼯具,对基因组所有基因的⽣物学功能进⾏⾼通量注释,是当前功能基因组学研究的⼀个热点。基因组注释的研究内容包括基因识别和基因功能注释两个⽅⾯。基因识别的核⼼是确定全基因组序列中所有基因的确切位置。常见的基因组注释有GO注释、pathway分析。
GO注释:geneontology是指对基因功能的注解。GO强调基因产物在细胞中的功能。GO不能反映此基因的表达情况,即是否在特定细胞中、特定组织中、特定发育阶段或与某种疾病相关,但GO⽀持其他的OBO(openbiology ontologies)成员成⽴其他类型的本体论数据库(如发育本体学、蛋⽩组本体学、基因芯⽚本体学等)
Pathway注释:是指对功能基因参与的信号通路等进⾏分析注释。
甲基化率:是指在甲基化测序中,发⽣甲基化的胞嘧啶占所有胞嘧啶的⽐率。
参数英文CpG岛:CpG island 是指DNA上⼀个区域,此区域含有⼤量相联的胞嘧啶(C)、鸟嘌呤(G),以
及使两者相连的磷酸酯键(p)。基因组中长度为300~3000 bp的富含CpG⼆核苷酸的⼀些区域,主要存在于基因的5’区域。启动⼦区中CpG岛的未甲基化状态是基因转录所必需的,⽽CpG序列中的C的甲基化可导致基因转录被抑制。
⾼通量测序常⽤名词解释
什么是⾼通量测序?⾼通量测序技术(High-throughputquencing,HTS)是对传统Sanger测序(称为⼀代测序技术)⾰命性的改变, ⼀次对⼏⼗万到⼏百万条核酸分⼦进⾏序列测定, 因此在有些⽂献中称其为下⼀代测序技术(next generation quencing,NGS )⾜见其划时代的改变, 同时⾼通量测序使得对⼀个物种的转录组和基因组进⾏细致全貌的分析成为可能, 所以⼜被称为深度测序(Deep quencing)。
什么是Sanger法测序(⼀代测序) Sanger法测序利⽤⼀种DNA聚合酶来延伸结合在待定序列模板上的引物。直到掺⼊⼀种链终⽌核苷酸为⽌。每⼀次序列测定由⼀套四个单独的反应构成,每个反应含有所有四种脱氧核苷酸三磷酸(dNTP),并混⼊限量的⼀种不同的双脱氧核苷三磷酸(ddNTP)。由于ddNTP缺乏延伸所需要的3-OH基团,使延长的寡聚核苷酸选择性地在G、A、T或C处终⽌。终⽌点由反应中相应的双脱氧⽽定。每⼀种dNTPs和ddNTPs的相对浓度可以调整,使反应得到⼀组长⼏百⾄⼏千碱基的链终⽌产物。它们具有共同的起始点,但终⽌在不同的的核
苷酸上,可通过⾼分辨率变性凝胶电泳分离⼤⼩不同的⽚段,凝胶处理后可⽤X-光胶⽚放射⾃显影或⾮同位素标记进⾏检测。
什么是基因组重测序(Genome Re-quencing) 全基因组重测序是对基因组序列已知的个体进⾏基因组测序,并在个体或群体⽔平上进⾏差异性分析的⽅法。随着基因组测序成本的不断降低,⼈类疾病的致病突变研究由外显⼦区域扩⼤到全基因组范围。通过构建不同长度的插⼊⽚段⽂库和短序列、双末端测序相结合的策略进⾏⾼通量测序,实现在全基因组⽔平上检测疾病关联的常见、低频、甚⾄是罕见的突变位点,以及结构变异等,具有重⼤的科研和产业价值。
什么是de novo测序 de novo测序也称为从头测序:其不需要任何现有的序列资料就可以对某个物种进⾏测序,利⽤⽣物信息学分析⼿段对序列进⾏拼接,组装,从⽽获得该物种的基因组图谱。获得⼀个物种的全基因组序列是加快对此物种了解的重要捷径。随着新⼀代测序技术的飞速发展,基因组测序所需的成本和时间较传统技术都⼤⼤降低,⼤规模基因组测序渐⼊佳境,基因组学研究也迎来新的发展契机和⾰命性突破。利⽤新⼀代⾼通量、⾼效率测序技术以及强⼤的⽣物信息分析能⼒,可以⾼效、低成本地测定并分析所有⽣物的基因组序列。
什么是外显⼦测序(whole exon quencing) 外显⼦组测序是指利⽤序列捕获技术将全基因组外显⼦区域DNA捕捉并富集后进⾏⾼通量测序的基因组分析⽅法。外显⼦测序相对于基因组重测序成本较
低,对研究已知基因的SNP、Indel等具有较⼤的优势,但⽆法研究基因组结构变异如染⾊体断裂重组等。
什么是mRNA测序 (RNA-q) 转录组学(transcriptomics)是在基因组学后新兴的⼀门学科,即研究特定细胞在某⼀功能状态下所能转录出来的所有RNA(包括mRNA和⾮编码RNA)的类型与拷贝数。Illumina提供的mRNA测序技术可在整个mRNA领域进⾏各种相关研究和新的发现。mRNA测序不对引物或探针进⾏设计,可⾃由提供关于转录的客观和权威信息。研究⼈员仅需要⼀次试验即可快速⽣成完整的poly-A尾的RNA完整序列信息,并分析基因表达、cSNP、全新的转录、全新异构体、剪接位点、等位基因特异性表达和罕见转录等最全⾯的转录组信息。简单的样品制备和数据分析软件⽀持在所有物种中的mRNA测序研究。
什么是small RNA测序 Small RNA(micro RNAs、siRNAs和pi RNAs)是⽣命活动重要的调控因⼦,在基因表达调控、⽣物个体发育、代谢及疾病的发⽣等⽣理过程中起着重要的作⽤。Illumina能够对细胞或者组织中的全部Small RNA进⾏深度测序及定量分析等研究。实验时⾸先将18-30 nt范围的Small RNA从总RNA中分离出来,两端分别加上特定接头后体外反转录做成cDNA再做进⼀步处理后,利⽤测序仪对DNA⽚段进⾏单向末端直接测序。通过Illumina对Small RNA⼤规模测序分析,可以从中获得物种全基因组⽔平的miRNA图谱,实现包括新miRNA分⼦的挖掘,其作⽤靶基因的预测和鉴定、样品间差异表达分析、miRNAs聚类和表达谱分析等科学应⽤。
什么是miRNA测序 成熟的microRNA(miRNA)是17~24nt的单链⾮编码RNA分⼦,通过与mRNA相互作⽤影响⽬标mRNA的稳定性及翻译,最终诱导基因沉默,调控着基因表达、细胞⽣长、发育等⽣物学过程。基于第⼆代测序技术的microRNA测序,可以⼀次性获得数百万条microRNA序列,能够快速鉴定出不同组织、不同发育阶段、不同疾病状态下已知和未知的microRNA及其表达差异,为研究microRNA对细胞进程的作⽤及其⽣物学影响提供了有⼒⼯具。
什么是Chip-q 染⾊质免疫共沉淀技术(ChromatinImmunoprecipitation,ChIP)也称结合位点分析法,是研究体内蛋⽩质与DNA相互作⽤的有⼒⼯具,通常⽤于转录因⼦结合位点或组蛋⽩特异性修饰位点的研究。将ChIP与第⼆代测序技术相结合的ChIP-Seq技术,能够⾼效地在全基因组范围内检测与组蛋⽩、转录因⼦等互作的DNA区段。ChIP-Seq的原理是:⾸先通过染⾊质免疫共沉淀技术(ChIP)特异性地富集⽬的蛋⽩结合的DNA⽚段,并对其进⾏纯化与⽂库构建;然后对富集得到的DNA⽚段进⾏⾼通量测序。研究⼈员通过将获得的数百万条序列标签精确定位到基因组上,从⽽获得全基因组范围内与组蛋⽩、转录因⼦等互作的DNA区段信息。
什么是CHIRP-Seq CHIRP-Seq( Chromatin Isolation by RNAPurification )是⼀种检测与RNA绑定的DNA和蛋⽩的⾼通量测序⽅法。⽅法是通过设计⽣物素或链霉亲和素探针,把⽬标RNA拉下来以后,与其共同作⽤的DNA染⾊体⽚段就会附在到磁珠上,最后把染⾊体⽚段做⾼通量测序,这样会得到该RNA能够结合到在基因组的哪些区域,但由于蛋⽩测序技术不够成熟,⽆法知道与该RNA结合的蛋⽩。
清明节英语
什么是RIP-q RNA Immunoprecipitation是研究细胞内RNA与蛋⽩结合情况的技术,是了解转录后调控⽹络动态过程的有⼒⼯具,能帮助我们发现miRNA的调节靶点。这种技术运⽤针对⽬标蛋⽩的抗体把相应的RNA-蛋⽩复合物沉淀下来,然后经过分离纯化就可以对结合在复合物上的RNA进⾏测序分析。RIP可以看成是普遍使⽤的染⾊质免疫沉淀ChIP技术的类似应⽤,但由于研究对象是RNA-蛋⽩复合物⽽不是DNA-蛋⽩复合物,RIP实验的优化条件与ChIP实验不太相同(如复合物不需要固定,RIP反应体系中的试剂和抗体绝对不能含有RNA酶,抗体需经RIP实验验证等等)。RIP技术下游结合microarray技术被称为RIP-Chip,帮助我们更⾼通量地了解癌症以及其它疾病整体⽔平的RNA变化。
什么是CLIP-q CLIP-q,⼜称为HITS-CLIP,即紫外交联免疫沉淀结合⾼通量测序(crosslinking-immunprecipitationand high-
throughput quencing), 是⼀项在全基因组⽔平揭⽰RNA分⼦与RNA结合蛋⽩相互作⽤的⾰命性技术。其主要原理是基于RNA分⼦与RNA结合蛋⽩在紫外照射下发⽣耦联,以RNA结合蛋⽩的特异性抗体将RNA-蛋⽩质复合体沉淀之后,回收其中的RNA⽚段,经添加接头、RT-PCR等步骤,对这些分⼦进⾏⾼通量测序,再经⽣物信息学的分析和处理、总结,挖掘出其特定规律,从⽽深⼊揭⽰RNA结合蛋⽩与RNA分⼦的调控作⽤及其对⽣命的意义。
什么是metagenomic(宏基因组) Magenomics研究的对象是整个微⽣物群落。相对于传统单个细菌
研究来说,它具有众多优势,其中很重要的两点:(1) 微⽣物通常是以群落⽅式共⽣于某⼀⼩⽣境中,它们的很多特性是基于整个群落环境及个体间的相互影响的,因此做Metagenomics 研究⽐做单个个体的研究更能发现其特性;(2)Metagenomics研究⽆需分离单个细菌,可以研究那些不能被实验室分离培养的微⽣物。宏基因组是基因组学⼀个新兴的科学研究⽅向。宏基因组学(⼜称元基因组学,环境基因组学,⽣态基因组学等),是研究直接从环境样本中提取的基因组遗传物质的学科。传统的微⽣物研究依赖于实验室培养,元基因组的兴起填补了⽆法在传统实验室中培养的微⽣物研究的空⽩。过去⼏年
中,DNA测序技术的进步以及测序通量和分析⽅法的改进使得⼈们得以⼀窥这⼀未知的基因组科学领域。
什么是SNP、SNV(单核苷酸位点变异) 单核苷酸多态性singlenucleotidepolymorphism,SNP 或单核苷酸位点变异SNV。个体间基因组DNA序列同⼀位置单个核苷酸变异(替代、插⼊或缺失)所引起的多态性。不同物种、个体基因组DNA序列同⼀位置上的单个核苷酸存在差别的现象。有这种差别的基因座、DNA序列等可作为基因组作图的标志。⼈基因组上平均约每1000个核苷酸即可能出现1个单核苷酸多态性的变化,其中有些单核苷酸多态性可能与疾病有关,但可能⼤多数与疾病⽆关。单核苷酸多态性是研究⼈类家族和动植物品系遗传变异的重要依据。在研究癌症基因组变异时,相对于正常组织,癌症中特异的单核苷酸变异是⼀种体细胞突变(somatic mutation),称做SNV。
什么是INDEL (基因组⼩⽚段插⼊) 基因组上⼩⽚段(>50bp)的插⼊或缺失,形同SNP/SNV。
什么是copy number variation (CNV):基因组拷贝数变异 基因组拷贝数变异是基因组变异的⼀种形式,通常使基因组中⼤⽚段的DNA形成⾮正常的拷贝数量。例如⼈类正常染⾊体拷贝数是2,有些染⾊体区域拷贝数变成1或3,这样,该区域发⽣拷贝数缺失或增加,位于该区域内的基因表达量也会受到影响。如果把⼀条染⾊体分成A-B-C-D四个区域,则A-B-C-C-D/A-C-B-C-D/A-C-C-B-C-D/A-B-D分别发⽣了C区域的扩增及缺失,扩增的位置可以是连续扩增如A-B-C-C-D也可以是在其他位置的扩增,如A-C-B-C-D。
什么是structure variation (SV):基因组结构变异 染⾊体结构变异是指在染⾊体上发⽣了⼤⽚段的变异。主要包括染⾊体⼤⽚段的插⼊和缺失(引起CNV的变化),染⾊体内部的某块区域发⽣翻转颠换,两条染⾊体之间发⽣重组(inter-chromosometrans-location)等。⼀般SV的展⽰利⽤Circos软件。
什么是Segment duplication ⼀般称为SD区域,串联重复是由序列相近的⼀些DNA⽚段串联组成。串联重复在⼈类基因多样性的灵长类基因中发挥重要作⽤。在⼈类染⾊体Y和22号染⾊体上,有很⼤的SD序列。
什么是genotype and phenotype 既基因型与表型;⼀般指某些单核苷酸位点变异与表现形式间的关系。
什么是Read ⾼通量测序平台产⽣的序列标签就称为reads。
什么是soft-clipped reads 当基因组发⽣某⼀段的缺失,或转录组的剪接,在测序过程中,横跨缺失位点及剪接位点的reads回帖到基因组时,⼀条reads被切成两段,匹配到不同的区域,这样的reads叫做soft-clipped reads,这些reads对于鉴定染⾊体结构变异及外源序列整合具有重要作⽤。
什么是multi-hits reads 由于⼤部分测序得到的reads较短,⼀个reads能够匹配到基因组多个位置,⽆法区分其真实来源的位置。⼀些⼯具根据统计模型,如将这类reads分配给reads较多的区域。
什么是Contig 拼接软件基于reads之间的overlap区,拼接获得的序列称为Contig(重叠群)。
什么是Scaffold 基因组de novo测序,通过reads拼接获得Contigs后,往往还需要构建454 Paired-end库或Illumina Mate-pair库,以获得⼀定⼤⼩⽚段(如3Kb、6Kb、10Kb、20Kb)两端的序列。基于这些序列,可以确定⼀些Contig之间的顺序关系,这些先后顺序已知的Contigs 组成Scaffold。
什么是Contig N50 Reads拼接后会获得⼀些不同长度的Contigs。将所有的Contig长度相加,能获得⼀个Contig总长度。然后将所有的Contigs按照从长到短进⾏排序,如获得Contig 1,Contig 2,………Contig 25。将Contig按照这个顺序依次相加,当相加的长度达到Contig总长度的⼀半时,最后⼀个加上的Contig长度即为Contig N50。举例:Contig 1+Contig 2+ Contig3+Contig 4=Conti
g总长度*1/2时,Contig4的长度即为Contig N50。Contig N50可以作为基因组拼接的结果好坏的⼀个判断标准。
reality是什么意思
什么是Scaffold N50 Scaffold N50与Contig N50的定义类似。Contigs拼接组装获得⼀些不同长度的Scaffolds。将所有的Scaffold长度相加,能获得⼀个Scaffold总长度。然后将所有的Scaffolds按照从长到短进⾏排序,如获得Scaffold 1,Scaffold 2,………Scaffold 25。将Scaffold按照这个顺序依次相加,当相加的长度达到Scaffold总长度的⼀半时,最后⼀个加上的Scaffold长度即为Scaffold
N50。举例:Scaffold 1+Scaffold 2+ Scaffold 3 +Scaffold 4 +Scaffold 5=Scaffold总长度*1/2时,Scaffold 5的长度即为Scaffoldsyp
N50。Scaffold N50可以作为基因组拼接的结果好坏的⼀个判断标准。
什么是测序深度和覆盖度 测序深度是指测序得到的总碱基数与待测基因组⼤⼩的⽐值。假设⼀个基因⼤⼩为2M,测序深度为10X,那么获得的总数据量为20M。覆盖度是指测序获得的序列占整个基因组的⽐例。由于基因组中的⾼GC、重复序列等复杂结构的存在,测序最终拼接组装获得的序列往往⽆法覆盖有所的区域,这部分没有获得的区域就称为Gap。例如⼀个细菌基因组测序,覆盖度是98%,那么还有2%的序列区域是没有通过测序获得的。
bsn
什么是RPKM、FPKM RPKM,Reads Per Kiloba of exon model perMillion mapped reads, is defined in thisway : 每1百万个map上的reads中map到外显⼦的每1K个碱基上的reads个数。假如有1百万个reads映射到了⼈的基因组上,那么具体到每个外显⼦呢,有多少映射上了呢,⽽外显⼦的长度不⼀,那么每1K个碱基上⼜有多少reads映射上了呢,这⼤概就是这个RPKM的直观解释。如果对应特定基因的话,那么就是每1000000 mapped到该基因上的reads中每kb有多少是mapped到该基因上的exon的read
映射到外显⼦上总的reads个数。这个是映射到某个区域上的reads个数,这个区域或者是已知注释的基因或者跨两个外显⼦的边界或者是某个基因已经注释的转录本的内含⼦、外显⼦。对于真核⽣物来说,外显⼦和它们⾃⼰内部的关系由某类型的mRNA来注释。
外显⼦的长度Exonlength。计算时,计算所有某个基因已注释的所有外显⼦长度的总和。即使某个基因以多种注释的转录本呈现,这个外显⼦在求和时只被包含⼀次。即使部分重叠的外显⼦共享相同的区域,重叠的外显⼦以其总长来计算。floorplanner
map的reads总和。映射到某个基因上的所有reads总数。因此这包含所有的唯⼀映射到这个区域上的reads。举例:⽐如对应到该基因的read有
91000(reads个数)/10
1000个,总reads个数有100万,⽽该基因的外显⼦总长为5kb,那么它的RPKM为:106(总reads个数)5000(外显⼦长
度)=200或者:1000(reads个数)/1(百万)*5(K)=200这个值反映基因的表达⽔平。
FPKM(fragments per kiloba of exon per millionfragments mapped). FPKM与RPKM计算⽅法基本⼀致。不同点就是FPKM计算的是fragments,⽽RPKM计算的是reads。Fragment⽐read的含义更⼴,因此FPKM包含的意义也更⼴,可以是pair-end的⼀个fragment,也可以是⼀个read。
什么是转录本重构 ⽤测序的数据组装成转录本。有两种组装⽅式:1,de-novo构建;2,有参考基因组重构。其中de-novo组装是指在不依赖参考基因组的情况下,将有overlap的reads连接成⼀个更长的序列,经过不断的延伸,拼成⼀个个的contig及scaffold。常⽤⼯具包括
velvet,trans-ABYSS,Trinity等。有参考基因组重构,是指先将read贴回到基因组上,然后在基因组通过reads覆盖度,junction位点的信息等得到转录本,常⽤⼯具包括scripture、cufflinks。
什么是genefusion 将基因组位置不同的两个基因中的⼀部分或全部整合到⼀起,形成新的基因,称作融合基因,或嵌合体基因。该基因有可能翻译出融合或嵌合体蛋⽩。
什么是表达谱 基因表达谱(geneexpression profile):指通过构建处于某⼀特定状态下的细胞或组织的
⾮偏性cDNA⽂库,⼤规模cDNA测序,收集cDNA序列⽚段、定性、定量分析其mRNA群体组成,从⽽描绘该特定细胞或组织在特定状态下的基因表达种类和丰度信息,这样编制成的数据表就称为基因表达谱
什么是功能基因组学 功能基因组学(Functuionalgenomics)⼜往往被称为后基因组学(Postgenomics),它利⽤结构基因组所提供的信息和产物,发展和应⽤新的实验⼿段,通过在基因组或系统⽔平上全⾯分析基因的功能,使得⽣物学研究从对单⼀基因或蛋⽩质得研究转向多个基因或蛋⽩质同时进⾏系统的研究。这是在基因组静态的碱基序列弄清楚之后转⼊对基因组动态的⽣物学功能学研究。研究内容包括基因功能发现、基因表达分析及突变检测。基因的功能包括:⽣物学功能,如作为蛋⽩质激酶对特异蛋⽩质进⾏磷酸化修饰;细胞学功能,如参与细胞间和细胞内信号传递途径;发育上功能,如参与形态建成等。采⽤的⼿段包括经典的减法杂交,差⽰筛选,cDNA代表差异分析以及mRNA差异显⽰等,但这些技术不能对基因进⾏全⾯系统的分析,新的技术应运⽽⽣,包括基因表达的系统分析(rial analysis of gene expression,SAGE),cDNA微阵列(cDNA microarray),DNA 芯⽚(DNA chip)和序列标志⽚段显⽰(quence taggedfragmentsdisplay。
什么是⽐较基因组学 ⽐较基因组学(ComparativeGenomics)是基于基因组图谱和测序基础上,对已知的基因和基因组结构进⾏⽐较,来了解基因的功能、表达机理和物种进化的学科。利⽤模式⽣物基因组与⼈类基因组之间编码顺序上和结构上的同源性,克隆⼈类疾病基因,揭⽰基因功能和疾病分⼦机
制,阐明物种进化关系,及基因组的内在结构。
什么是表观遗传学 表观遗传学是研究基因的核苷酸序列不发⽣改变的情况下,基因表达了可遗传的变化的⼀门遗传学分⽀学科。表观遗传的现象很多,已知的有DNA甲基化(DNAmethylation),基因组印记(genomicimpriting),母体效应(maternaleffects),基因沉默(genesilencing),核仁显性,休眠转座⼦激活和RNA编辑(RNA editing)等。
什么是计算⽣物学 计算⽣物学是指开发和应⽤数据分析及理论的⽅法、数学建模、计算机仿真技术等。当前,⽣物学数据量和复杂性不断增长,每14个⽉基因研究产⽣的数据就会翻⼀番,单单依靠观察和实验已难以应付。因此,必须依靠⼤规模计算模拟技术,从海量信息中提取最有⽤的数据。
>date是什么意思中文

本文发布于:2023-07-24 06:57:19,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/fanwen/fan/78/1114129.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:基因   基因组   测序   序列   研究   表达
相关文章
留言与评论(共有 0 条评论)
   
验证码:
推荐文章
排行榜
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图