stringTie:转录本组装和定量⼯具
对于转录组数据⽽⾔,最基础的分析就是基因和转录本⽔平的定量了,定量就是确定⼀个基因或者转录本的表达量,其中定量的⽅式有很多种。
最直接的⽅式就是统计mapping到这个基因/转录本上的reads的个数,将reads数作为表达量。我们称这种表达量为raw count。
在raw count的基础上,利⽤外显⼦长度进⾏归⼀化,就得到了TPM值的定量⽅式。对于每个基因,将raw count除了该基因的长度(exon长度之和) , 得到长度归⼀化之后的表达量。某个基因的TPM值就是利⽤归⼀化之后的表达量,计算了⼀个相对丰度。具体计算公式如下,注意基因长度以k为单位
在raw count的基础上,利⽤测序量和外显⼦长度两个因素进⾏归⼀化,就得到了RPKM/FPKM 值的定量⽅式。⾸先将raw count除了mapping 上的所有reads数,得到相对丰度,在除以该基因长度(exon长度之和), 就可以计算出RPKM值。测试时每⼀条插⼊⽚段称为⼀个fragment,对于双端测序,⼀个fragment 会得到两条reads。
RPKM和FPKM 唯⼀不同的地⽅在于raw count的计算,RPKM 计算的是reads 数,⽽FPKM 值计算的是fragments 数,对于单端测序, fragment 和 reads 的个数是相等的;对于双端测
序,reads 数⽬是fragments 数⽬的两倍,对于FPKM ⽽⾔,即使双端的两条reads都⽐对上了基因组,在计数时也知计⼀次,因为两条reads来源于同⼀个fragment。
具体计算公式如下, 需要注意单位,mapping上的reads 总数以M为单位,基因长度以k为单位。
能够进⾏定量的软件有很多,本⽂主要介绍stringTie这款软件。
在早期的转录组数据分析中,最经典的分析策略是tophat+cufflinks+cuffdiff, 这套分析的pipeline 会给出基于FPKM值的定量结果,然后进⾏差异分析,但是随着测序数据量的提⾼和分析⼿段的发展,这套分析策略出现了很多的问题。
japane noodle
⾸先就是tophat的速度很慢,相⽐新出的⽐对软件,其速度可以算得上是龟速了,同样的数据量,hisat/star只需要半个⼩时就可以⽐对完成,tophat2⾄少需要5到6个⼩时;其次,基于FPKM值得到的差异结果和实验⼿段如qPCR验证的⼀致性较差。
为了顺应测序和分析的新趋势,原本的开发团队对整个pipeline进⾏了全⾯升级, ⽤hisat 代替tophat, ⽤stringTie + ballgown 代替cufflinks + cuffdiff。
stringTie 可以看做是cufflinks 软件的升级版本,其功能和cufflinks是⼀样的,包括下⾯两个主要功能
damn>哈尔滨速记1. 转录本组装
2. 定量
相⽐cuffinks, 其运⾏速度更快。该软件的官⽹如下
primary怎么读ccb.jhu.edu/software/stringtie/index.shtml化学符号
stringTie的输⼊⽂件为经过排序之后的bam⽂件,常见⽤法有以下⼏种
1. 对已知转录本进⾏定量
对于模式⽣物,如human, mou等,通常只需要对已知的转录本定量即可,⽤法如下stringtie -p 10 -f -f -b ballgown_out_dir -e align.sorted.bam
-G参数指定参考基因组的gtf⽂件,-o指定输出的⽂件,格式也为gtf, -b指定ballgown的输出结果⽬录,这个参数是为了⽅便下游进⾏ballgown差异分析,-e参数要求软件只输出已知转录本的定量结果。新航道英语
在输出的GTF格式的⽂件中,对于每个转录本,会给出以下3种表达量
1. coverage2013北京高考英语
2. TPM
3. FPKM
泰晤士报世界大学排名2. 组装本组装
对于单个样本进⾏组装,⽤法如下
stringtie align.sorted.bam -f -p 20 -f
北京linux培训在组装的转录本中,也会给出定量的结果,对于组装的新转录本和基因,默认采⽤STRG加数字编号进⾏区分,⽰例如下
gene_id "STRG.1" transcript_id "STRG.1.1"
单个样本组装完成后,会合并所有样本的转录本组装结果,得到⼀个⾮冗余的转录本集合,⽤法如下
stringtie --merge -f -p 20 -f
在合并的⾮冗余转录本中,采⽤MSTRG加数字编号对基因和转录本进⾏编号,⽰例如下
gene_id "MSTRG.2" transcript_id "MSTRG.2.2"
小语种培训本质上,stringTie只提供了转录本⽔平的表达量,定量⽅式包括TPM和FPKM值两种。为了进⾏raw count的定量⽅式,官⽅提供了prepED.py脚本,可以计算出raw count的表达量,⽤法如下python prepDE.py -i -g gene_count_matrix.csv -o transcript_count_matrix.csv 输⼊⽂件为,该⽂件为\t分隔的两列,第⼀列为样本名称,第⼆列为定量的gtf ⽂件的路径,⽰例如下
sampleA f sampleB f
同时输出基因和转录本⽔平的raw count表达量值。
采⽤stringTie进⾏定量,运⾏速度快是⼀个优势,同时提供raw count, FPKM, TPM 3种定量⽅式的结果,也是其最便利的地⽅。
·e n d·