转载--基因表达⽔平及差异表达分析
基因表达⽔平分析
⼀个基因表达⽔平的直接体现就是其转录本的丰度情况,转录本丰度越⾼,则基因表达⽔平越⾼。在RNA-q分析中,我们可以通过定位到基因组区域或基因外显⼦区的测序序列(reads)的计数来估计基因的表达⽔平。Reads计数除了与基因的真实表达⽔平成正⽐外,还与基因的长度和测序深度成正相关。为了使不同基因、不同实验间估计的基因表达⽔平具有可⽐性,⼈们引⼊了FPKM的概念,FPKM(expected number of Fragments Per Kiloba of transcript quence per Millions ba pairsquenced)是每百万fragments中来⾃某⼀基因每千碱基长度的fragments数⽬,其同时考虑了测序深度和基因长度对fragments计数的影响,是⽬前最为常⽤的基因表达⽔平估算⽅法(Trapnell, Cole, et al., 2010)。
朱砂桂
image
牛跟羊合不合
image
差异表达分析
通过所有基因的FPKM分布图以及盒形图对不同实验条件下的基因表达⽔平进⾏⽐较。对于同⼀实验条件下的重复样品,最终的FPKM为所有重复数据的平均值。
image
基因差异表达的输⼊数据为基因表达⽔平分析中得到的readcount数据。对于有⽣物学重复的样品,我们采⽤DESeq(Anders et al, 2010)进⾏分析:
该分析⽅法基于的模型是负⼆项分布,第 i 个基因在第 j 个样本中的 read count 值为Kij,则有Kij ~ NB(µij,σij2)
对于⽆⽣物学重复的样品,先采⽤TMM对read count数据进⾏标准化处理,之后⽤DEGq进⾏差异分析。差异表达基因列表如下:
狗年祝福语
仓鼠可以吃什么蔬菜
image
马桶水箱维修王夫子⽤⽕⼭图可以推断差异基因的整体分布情况,对于⽆⽣物学重复的实验,为消除⽣物学变异,从差异倍数和显著⽔平两个⽅⾯进⾏评估,对差异基因进⾏筛选,
浙贝母的功效与作用
阈值设定⼀般为: |log2(FoldChange)| > 1 且 qvalue < 0.005。对于有⽣物学重复的实验,由于DESeq已经进⾏了⽣物学变异的消除,我们对差异基因筛选的标准⼀般为:
padj < 0.05。
image
差异基因维恩图
差异基因维恩图展⽰了各⽐较组间差异基因的个数,以及⽐较组间的重叠关系。
image
老爸生日快乐图片差异基因聚类分析
聚类分析⽤于判断差异基因在不同实验条件下的表达模式;通过将表达模式相同或相近的基因聚集成类,从⽽识别未知基因的功能或已知基因的未知功能;因为这些同类的基因可能具有相似的功能,或是共同参与同⼀代谢过程或细胞通路。以不同实验条件下的差异基因的FPKM值为表达⽔平,做层次聚类(hierarchical clustering)分析,不同颜⾊的区域代表不同的聚类分组信息,同组内的基因表达模式相近,可能具有相似的功能或参与相同的⽣物学过程。
image 原⽂:基因表达⽔平及差异表达分析