linux学习100篇40:转录组分析用软件及安装featureCounts

更新时间:2023-06-24 11:25:43 阅读: 评论:0

linux学习100篇40:转录组分析⽤软件及安装featureCounts ⼀、原理
⽂献参考:featureCounts: an efficient general purpo program for assigning quence reads to genomic features
我们不可能摘要
1、在⾼通量测序分析中⽤于下游分析的关键信息是⽐对到每个genomic feature(外显⼦、基因等)中的read数⽬,⽽计数的过程称为read summarization
2、featurecounts是⼀款使⽤于RNA-q和DNA-q的read summarization⼯具,应⽤了⾼效率的染⾊体哈希算法和feature区块技术
3、它⽐⽬前存在的⼯具速度都快,⽽且需要的内存空间少,同时可以⽤于单端和双端的数据
背景
1、⾼通量数据⽐对产⽣的结果⽆法让我们对其中的⽣物学过程产⽣深刻的理解, 只有将其转化成我们感兴趣的基因组特征的read count才⾏
2、这些我们感兴趣的基因组特征可能是外显⼦、基因、启动⼦区域、gene body或者是基因组间隙,⽽read counts是下游很多分析进程的输⼊⽂件
3、⽬前⼤家对计数中存在的问题关注度⽐较少,read count program 要求可以同时对DNA和RNA及单双端的read进⾏统计,同时这些⽚段相对于参考基因组可能包括插⼊、缺失、融合,同时当需要计数的feature类别很多时,⼜会产⽣⼀定的计算压⼒
蛔虫病的症状4、DNA-q read统计的⽅法⼤有不同,⾸先,DNAq read可能来源于基于转录因⼦结合位点的chip-q、基于组蛋⽩marker的chipq或DNA甲基化测序,⽽这些测序关⼼的基因组区域很多都是基因组的间隙位置,之前有⼈通过计算启动⼦区域和这个基因体的read数分析组蛋⽩marker。
5、RNA-q的计数可能更复杂,因为需要考虑到外显⼦剪切。⼀种计数⽅法是数⼀下与每⼀个被注释的外显⼦重合的read,另外⼀种⽅法是数⼀下与每⼀个基因区域重合的read
6、另⼀个问题是,尽管read count中包含感兴趣基因区域的所有信息,但是我们⽆法区分isoform的信息,因为同⼀基因下的不同的isoform存在很⼤程度的重合区域,很多基于模型的⽅法被开发同时也有⼈统计过isoform中不重合的区域作为统计的依据
7、还有⼀个问题是,很多⼯具开发的语⾔都是基于R和python,速度慢。
8、综上,read summarization遇到的问题为 1)对于不同实验需要不同的统计的genomic feature 2)对于同⼀个实验中,普通软件⽆法识别isoform 3)很多软件计算速度慢
数据格式和输⼊形式
1、输⼊数据
1、输⼊的数据有两类,⼀类是SAM/BAM⽂件,另⼀类是GTF/GFF/SAF,其中SAM/BAM可以输⼊⼀个或多个
卖油翁教案2、SAM/BAM⽂件和GTF/GFF/SAF⽂件需要来⾃同⼀个参考基因组,即必须参考基因组和GTF/GFF/SAF⽂件来⾃同⼀个⽹站,同⼀个版本
3、SAM/BAM主要提供read所⽐对到的染⾊体/contig,read在染⾊体上的位置以及CICAR信息,即SAM/BAM中的三列信
息,GFF/GTF/SAF主要提供feature identifier(如geneID), chromosomename, start position, end position and strand 这五列信息
社会实践活动例子4、featurecounts也⽀持链特异性的read的计数,前提是要提供链特异性的信息,同时featurecounts也⽀持⽤于根据⽐对结果中的⽐对质量分数来卡阈值选择合适的⽐对结果进⾏定量
2、单端和双端测序
如果是双端测序,这⼀对read定义了⼀个DNA/RNA⽚段的两端,这种情况下,featurecounts会计算⽚段数(fragment)⽽不是read数
3、feature和meta-feature
1、feature是指基因组上被定义的⼀个⽚段区域,meta-feature是指多个feature组成的区域,如exon和gene的关系
2、分享相同的feature identifier(GTF⽂件中有) 的features属于同⼀个meta-feature
3、featurecounts可以对features和meta-feature进⾏计数
算法原理
1、read与feature重叠的情况
1、featurecounts通过⽐较 基因组区域上每个feature所在的位置与read或fragment中每⼀个碱基⽐对的位置的关系,来精确的对read进⾏计数
2、它考虑了read上的各种gap,如插⼊、缺失、外显⼦剪切和融合
3、如果在read/fragment与feature中,⼆者⾄少有1bp的交集,那就实现⼀次命中(hit)
4、如果在read/fragment与meta-feature下属的任意feature有交集,就认为是⼀次命中(hit)
2、多重overlap
1、多重overlap是指⼀个read/fragment跨越了两个feature或在计数meta-feature时跨越两个meta-feature
2、featurecounts可以让⽤户选择,是排除这种多重overlap的read还是对每个被overlap的feature都计⼀次数,⽽这样的选择是由你⾃⼰的实验类型决定的
真人cs作文3、如果是RNA-q实验,我们推荐把这种read去掉,因为单个fragment⼀定都是起源于⼀个⽬标基因的,⽽这种匹配到多个基因的情况,最好不要!
4、如果是chip-q实验,我们建议保留,因为这种实验很有可能调控了多个靶基因或基因区域,这些靶基因的共同的部分可能会被富集到!
5、注意,如果在计数meta-feature的时候,在同⼀个meta-feature中overlap两个feature的read/fragment⼀定只计数⼀次!
3、染⾊体哈希
1、注意,这⾥的reference quence是指参考基因组中的拼装等级,read、contig、scaffold、chromosome
2、⼀开始,featurecounts会为reference quence 产⽣⼀个哈希表,它可以让match变的更快
3、在完成read和feature的match后,随后的分析可以在每⼀个reference quence 中分别进⾏
4、基因组bin 和feature block
1、上⾯提到后续的分析都在每个reference quence中进⾏
2、feature会先按照它们起始的位置排好顺序(从左起的ba开始,leftmost ba position,类似于samtools的sort),之后会创建两个层级
3、⾸先,reference quence会先被分成⾮重叠的128kb长度的众多bins,⽽feature会按照其起始位置在bin中分布
4、对于每⼀个bin,其中相同数⽬的连续的feature会聚为⼀堆,形成block,其中⼀个bin中的block的数⽬会是该bin中feature数⽬的平⽅根,这样保证了⼀个block中的feature的数⽬与bin中的block的数⽬近似相等
5、这种层级结构的使⽤是featurecount能够实现快速定量的基础
6、之后需要定量的read会先跟bin⽐较,然后跟bin中的block⽐较,然后再跟feature⽐较,最后再通过预设的⽐较层级(feature还是meta-feature)以及是否计数(上⾯overlap的情况判断)来对计数做出决断。
image
⼆、操作说明
基本表达式
featureCounts [options] <input.file>
参数说明
参数说明
笋的做法大全家常炒菜input file输⼊的bam/sam⽂件,⽀持多个⽂件输⼊
-a < string >参考gtf⽂件名,⽀持Gzipped⽂件格式
-F参考⽂件的格式,⼀般为GTF/SAF,C语⾔版本默认的格式为GTF格式
-A 提供⼀个逗号分割为两列的⽂件,⼀列为gtf中的染⾊体名,另⼀列为read中对应的染⾊体名,⽤于将gtf和read中的名称进⾏统⼀匹配,注意该⽂件提交时不需要列名
-J对可变剪切进⾏计数
-网络新名词
G < string >当-J设置的时候,通过-G提供⼀个⽐对的时候使⽤的参考基因组⽂件,辅助寻找可变剪切-M如果设置-M,多重map的read将会被统计到
-o < string >输出⽂件的名字,输出⽂件的内容为read 的统计数⽬
-O 允许多重⽐对,即当⼀个read⽐对到多个feature或多个metafeature的时候,这条read会被统计多次
-T线程数⽬,1~32
下⾯是有关
featrue/metafeature
选择的参数
参数说明
-p只能⽤在paired-end的情况中,会统计fragment⽽不统计read
-B在-p选择的条件下,只有两端read都⽐对上的fragment才会被统计
-C 如果-C被设置,那融合的fragment(⽐对到不同染⾊体上的fragment)就不会被计数,这个只有在-p被设置的条件下使⽤
-d < int >最短的fragment,默认是50 -D < int >最长的fragmen,默认是600
-f 如果-f被设置,那将会统计feature层⾯的数据,如exon-level,否则会统计meta-feature层⾯的数据,如gene-levels
-g < string >当参考的gtf提供的时候,我们需要提供⼀个id identifier 来将feature⽔平的统计汇总为meta-feature⽔平的统计,默认为gene_id,注意!选择gtf中提供的id identifier
-t < string >设置feature-type,-t指定的必须是gtf中有的feature,同时read只有落到这些feature上才会被统计到,默认是“exon”
选修七英语单词表三、实例说明
1、当我们想对feature⽔平进⾏统计的时候,需要设置-f参数

本文发布于:2023-06-24 11:25:43,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/fanwen/fan/82/1028347.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:计数   区域   基因组   需要
相关文章
留言与评论(共有 0 条评论)
   
验证码:
推荐文章
排行榜
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图