1、链特异性建库测序:(mRNA-Seq library(Strand-Specific) construction,ssRNA-Seq)可以确定转录本来自正链还是负链,以便更加准确的获得基因的结构以及基因表达信息,并且可以更好的发现新的基因; 但链特异建库在read的随机性分布上略差,而其所得结果其他指标都是比较优秀的,其结果是准确可信的。
测序数据质量评估与预处理:质量控制Quality Control:FastQC、Fastx-toolkit
拼接Aligner:BWA,Bowtie, Tophat, SOAP2 Mapper:Tophat, Cufflinks
基因定量 Gene Quantification: Cufflinks, Avadis NGS
鼠和马合不合
质量改进 Quality improvement:?Genome Analysis Toolkit(GATK)
SNP: Unified Genotyper,Glfmultiple, SAMtools, Avadis NGS
CNV: CNVnator Indel: Pindel, Dindel, Unified Genotyper, Avadis NGS
Mapping to a gene: Cufflinks, Rsamtools,?Genomic Features
QC分析:QUALITY CONTROL,检查表、层别法、柏拉图、因果图、散布图、直方图、管制图
2、差异整合分析:Meta-analysis,对若干独立研究的统计结果进行综合差异的定量分析
表达模式分析:分析基因如何表达的。就是从DNA到蛋白质的过程,这个过程是如何进行的就是它的模式
GO富集分析:可分为分子功能(Molecular Function),生物过程(biological process)和细胞组成(cellular component)三个部分。蛋白质或者基因可以通过ID对应或者序列注释的方法找到与之对应的GO号,而GO号可对于到Term,即功能类别或者细胞定位。 功能富集分析: 功能富集需要有一个参考数据集,通过该项分析可以找出在统计上显著富集的GO Term。该功能或者定位有可能与研究的目前有关
KEGG富集分析:KEGG(Kyoto Encyclopedia of Genes and Genomes)是系统分析基因功能、基因组 信息数据库,它有助于研究者把基因及表达信息作为一个整体网络进行研究
基因网络分析:目的:根据文献,数据库和已知的pathway 寻找基因编码的蛋白之间的相
互关系(不超过1000 个基因)。
Pathway分析:根据挑选出的差异基因,计算这些差异基因同Pathway 的超几何分布关系,Pathway 分析会对每个有差异基因存在的pathway 返回一个p-value,小的p 值表示差异基因在该pathway 中出现了富集。 Pathway 分析对实验结果有提示的作用,通过差异基因的Pathway 分析,可以找到富集差异基因的Pathway 条目,寻找不同样品的差异基因可能和哪些细胞通路的改变有关。与GO 分析不同,pathway 分析的结果更显得间接,这是因为,pathway 是蛋白质之间的相互作用,pathway 的变化可以由参与这条pathway 途径的蛋白的表达量或者蛋白的活性改变而引起。而通过芯片结果得到的是编码这些蛋白质的mRNA 表达量的变化
3、mRNA分析:
DEU分析
PCA分析:有效的找出数据中最“主要”的元素和结构塘沽盐场
,去除噪音和冗余,将原有的复杂数据降维,揭示隐藏在复杂数据背后的简单结构
样本聚类分析:指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程
mRNA表达分析
基因表达:就是从DNA到mRNA再到蛋白的一个过程,基因表达水平一般是通过该基因转录的mRNA的多少来衡量的
基因结构优化
可变剪切分析:有些基因的一个mRNA前体通过不同的剪接方式(选择不同的剪接位点)产生不同的mRNA剪接异构体,这一过程称为可变剪接(或选择性剪接, alternative splicing) 。可变剪接是调节基因表达和产生蛋白质组多样性的重要机制, 是导致真核生物基因和蛋白质数量较大差异的重要原因
新转录本预测
InDel和SNP分析:SNP是单核苷酸多态性,InDel指inrt或者deletion,插入或者缺失。
4、lncRNA分析:
转录本拼接:大多数的真核基因都是断裂基因,断裂基因的转录产物需要通过拼接,去除插入部分(即内含子,intron),使编码区(即外含子,Exon)成为连续序列,这是基因表达的一个重要环节;转录组拼接有两种方式,Mapping-first approaches 和 de novo拼接
编码能力预测:预测编码是根据离散信号之间存在着一定关联性的特点,利用前面一个或多个信号预测下一个信号进行,然后对实际值和预测值的差(预测误差)进行编码
描述性统计:指利用常规检测记录或通过专门调查获得的数据资料(包括实验室检查结果),按不同地区、不同时间及不同人群特征进行分组,描述人群中有关疾病或健康状态以及有关特征和暴露因素的分布状况,在此基础上进行比较分析,获得疾病三间(人群、地区、时间)分布的特征,进而获得病因线索,提出病因假设和线索
保守性分析:保守序列(Conrved Sequence ):指DNA分子中的一个核苷酸片段或者蛋白质中的氨基酸片段,它们在进化过程中基本保持不变;指具有高度相似性或同一性的分子序列,这些序列可以是核酸序列(如RNA或DNA序列),蛋白质序列,蛋白质结构或糖类中的序列。这些序列高度相似,却来自不同的物种或同一生物体产生的不同分子
lncRNA表达分析
5、circRNA分析:
circRNA预测
基因结构分析:人类结构基因4个区域:①编码区,包括外显子与内含子;②前导区,位于编码区上游,相当于RNA5’末端非编码区(非翻译区);③尾部区,位于RNA3’编码区下游,相当于末端非编码区(非翻译区);④调控区,包括启动子和增强子等。基因编码区的两侧也称为侧翼顺序(在第一个外显子和最末一个外显子的外侧是一段不被翻译的非编码区) 内含子5’末端大多数是GT开始,3’末端大多是AG结束,称为GT-AG法则
已知数据库比对
circRNA表达分析:GO富集分析&KEGG富集分析
功能基因注释:基因组注释(Genome annotat血热怎么办
ion) 是利用生物信息学方法和工具,对基因组所有基因的生物学功能进行高通量注释,是当前功能基因组学研究的一个热点。基因组注释的研究内容包括基因识别和基因功能注释两个方面。基因识别的核心是确定基因组序列中所有基因的确切位置。从基因组序列预测新基因,现阶段主要是3 种方法的结合: (1) 分析m
RNA 和EST数据以直接得到结果; (2) 通过相似性比对从已知基因和蛋白质序列得到间接证据[1] ; (3) 基于各种统计模型和算法从头预测。对预测出的基因进行高通量功能注释可以借助于以下方法,利用已知功能基因的注释信息为新基因注释: (1) 序列数据库相似性搜索; (2) 序列模体(Motif) 搜索; (3) 直系同源序列聚类分析(Cluster of orthologousgroup ,COG)
miRNA互作分析
基因表达系列分析(SAGE):是通过快速和详细分析成千上万个EST(express quenced tags)来寻找出表达丰富度不同的SAGE标签序列
6、micRNA表达分析:
&n面包的家常做法
bsp; lncRNA表达分析
mRNA表达分析
circRNA表达分析
靶基因关系对(m&mi mi&lnc mi&circ):靶基因即目的基因。在分子遗传中,它不仅要具
有识别结合功能,还应该具有与位点结合后能表达你所需要的相应功能的作用;指编码特定蛋白质的结构基因,它能使转基因生物体产生新的表型.转基因鱼研究中所使用的靶基因大多是生长激素基因、抗冻蛋白基因经典民间故事大全
、珠蛋白基因、金属硫蛋白基因和生长激素释放因子基因等
三元关系网络分析(lnc&mi&m lnc&mi&circ circ&mi&mi)
2、服务模式
1、基础分析:提供初步处理数据
质控分析与低质量序列去除
De novo组装\比对基因组:De Novo 测序也叫从头测序,不需要任何基因序列信息即可对某个物种进行测序。用生物信息学的分析方法对序列进行拼接、组装,从而获得该物种的基因组序列图谱。目前广泛应用于从头解析未知物种的基因组序列、基因组成、进化特点等
计算表达量
2、深度分析(以mRNA测序举例):
Unigene功能注释分析:unigene是Universal Gene的英文缩写,意为广泛通用的基因数据库,通过电脑对相同基因座(Locus)的收集整理集合形成一个非冗余的基因数据库
差异基因筛选与功能富集分析:筛选差异基因是用统计学的方法对高通量的基因数据进行筛选,挑出样本间有显著性差异的基因
可变剪切/基因融合/基因-蛋白互作分析:可变剪切:有些基因的一个mRNA前体通过不同的剪接方式(选择不同的剪接位点)产生不同的mRNA剪接异构体,这一过程称为可变剪接(或选择性剪接, alternative splicing) 。可变剪接是调节基因表达和产生蛋白质组多样性的重要机制, 是导致真核生物基因和蛋白质数量较大差异的重要原因。 融合基因:是指将两个或多个基因的编码区首尾相连,置于同一套调控序列(包括启动子、增强子、核糖体结合序列、终止子等)控制之下,构成的嵌合基因.融合基因的表达产物为融合蛋白。 基因-蛋白互作:可以体现出功能基因组与非功能基因组、健康个体与患病个体、转基因作物与非转基因作物之间的差异的分析
分子标记挖掘:分子标记的概念有广义和狭义之分。广义的分子标记是指可遗传的并可检测的DNA序列或蛋白质。狭义分子标记是指能反映生物个体或种群间基因组中某种差异的特异性DNA片段
时间序列数据分析:时间序列分析(Time ries analysis)是一种动态数据处理的统计方法。该方法基于随机过程理论和数理统计学方法,研究随机数据序列所遵从的统计规律,以用于解决实际问题。它包括一般统计分析(如自相关分析,谱分析等),统计模型的建立与推断,以及关于时间序列的最优预测、控制与滤波,对离散指标的随机过程的统计分析,所以又可看作是随机过程统计的一个组成部分等