RNA-q融合检测软件
trademark
STAR-Fusion
charme
地址:Home · STAR-Fusion/STAR-Fusion Wiki · GitHub
输出⽂件⽰例:
#FusionName JunctionReadCount SpanningFragCount SpliceType LeftGene LeftBreakpoint RightGene RightBreakpoint LargeAnchorSupport FFPM LeftBreakDinuc LeftBreakEntropy RightBreakDinuc RightBreakEntropy annots
THRA--AC090627.1 27 93 ONLY_REF_SPLICE THRA^ENSG00000126351.8
chr17:38243106:+ AC090627.1^ENSG00000235300.3 chr17:46371709:+ YES_LDAS 23875.8456 GT
1.8892 AG 1.9656 ["CCLE","FA_CancerSupp","INTRACHROMOSOMAL[chr17:8.12Mb]"]
输出⽂件说明(难懂列说明):
JunctionReadCount:⽀持断点的split-reads数⽬
SpanningFragCount:包含断点的RNA⽚段数⽬(⼀个RNA⽚段的两条reads分别⽐对到不同的基因上)
SpliceType:断点是否发⽣在参考转录本上
LargeAnchorSupport:断点是否有左右两端长度⽐较长的split-reads⽀持(即:断点是否倾向于发⽣在split-reads中间);缺乏spanning⽚段和LargeAnchorSupport⽀持的断点倾向于是假阳性;LDAS = long double anchor support
to是什么意思FFPM:fusion fragments per million total reads(每M reads中⽀持融合的⽚段数)
LeftBreakEntropy|RightBreakEntropy:断点左右15bp(外显⼦上)序列的Shannon Entropy,代表序列复杂度(0-2之间,越⾼越复杂)
过零丁洋翻译annots:对融合基因的简要注释
Arriba
波兰语发音地址:Output files - Arriba
输出⽂件⽰例:
commissioned
#gene1 gene2 strand1(gene/fusion) strand2(gene/fusion) breakpoint1 breakpoint2 site1 site2 type split_reads1 split_reads2 discordant_mates coverage1 coverage2 confidence reading_frame tags retained_protein_domains
clost_genomic_breakpoint1 clost_genomic_breakpoint2 gene_id1 gene_id2 transcript_id1 transcript_id2 direction1
direction2 filters fusion_transcript peptide_quence read_identifiers
DDIT3 FUS -/- +/+ chr12:57914200 chr16:31196261 intron CDS/splice-site translocation 1 9 0 37 1082 high . .
|RNA_recognition_motif._(a.k.a._RRM__RBD__or_RNP_domain)(100%),Zn-finger_in_Ran_binding_protein_and_others(100%) . . ENSG00000175197.6 ENSG00000089280.14 ENST00000551116.1 ENST00000254108.7 upstream upstream
四六级英语成绩查询
duplicates(7),mismatches(1) CTGAGCGTATCATGTTA? AGATGAGCGGGTGGCAGCGACAGAGCCAAAATCAGAGCTGGAACCTGAGGAGAGAGG|TAACTATGGCCAAGATCAATCCTCCA TGAGTAGTGGTGGTGGCAGTGGTGGCGGTTATGGCAATCAAGACCAGAGTGGTGGAGGTGGCAGCGGTGGCTATGGACAGCAG . trn_433874,trn_135477,trn_142589,trn_1739741,trn_1779998,trn_2308393,trn_2332626,trn_242633,trn_2787100,trn_294689
5,trn_297708,trn_3040178,trn_32450,trn_426992,trn_62570,trn_723483,trn_855077,trn_990866
输出⽂件说明(难懂列说明):
strand:斜杠前后分别是基因strand和融合转录本strand;发⽣在基因间区的断点,基因对应strand⽤‘.’表⽰,⽆法预测转录本⽅向的,也⽤‘.’表⽰
site:断点位置类型
filters:被筛选掉的⽀持断点的reads数⽬及其原因
原理:
Arriba总的来说是⼀个过滤器的集成软⼯具,其主要有两种⽔平的过滤:read-level和event-level。
先说read-level:
(1)duplicates(重复):对于重复reads的过滤主要通过两种⽅法(内部和外部),⼀种是根据⽚段⽐对位置(内部),⼀种是根据⽂库属性(外部;⽐较适⽤于需要考虑⽂库属性、加UMI标签的或⽆法利⽤⽐对位置去重的情况);内部⽅法默认不可改,外部⽅法可⽤“-u”关掉。
(2)uninteresting_contigs:去除涉及⾮感兴趣染⾊体上(例如:⼈的24条染⾊体)的嵌合类型;“-i”参数。
(3)viral_contigs:去除不涉及主染⾊体的嵌合类型,“-u”参数。
(4)top_expresd_viral_contigs:⽤于保留top N表达的病毒嵌合,“-t”参数。参数思想是如果肿瘤真的源于病毒感染,那么会有⼤量的reads能够⽐对到病毒序列上;⽽且,由于基因相关区域的缺乏,病毒嵌合很⼤程度上是⼀个随机过程,很多嵌合位点都是位于基因间区;因此,⼤⽐例的intergenic-to-genic integration sites也是真正的病毒渗透的暗⽰。
health是什么意思
儿童节快乐英文怎么说(5)low_coverage_viral_contigs:去除⾼覆盖及低覆盖的病毒contigs,参数“-C”。参数思想是⼀些病毒contigs会吸引⼀些⽐对错误,通常,这些⽐对错误会有聚集的焦点区域;⽽真正的病毒渗透会相对均匀。覆盖度⼩于所有病毒contig平均覆盖度的5%被认为是不充分的,如果充分覆盖占⽐⼩于15%,所有与病毒contig有关的融合候选都会被去除。
什么是国民教育(6)read_through:去除测序⼀端⽐对到基因上,另⼀端⽐对到基因外且距离⼩于⼀定值(参数“-R”设置)的⽚段,以及配对reads的⽅向来⾃于经典剪接的⽚段。可以排除接近基因末端的短⽚段缺失。
(7)inconsistently_clipped:去除由于插⼊⽚段长度过⼩,两端有重合,但⼀端表现为split-reads,另⼀端不是的⽚段。
(8)homopolymer:去除断点邻近同聚体的候选融合。
(9)small_inrt_size:去除起始终⽌位置相差⼩于5bp及⽅向是由于重复产⽣的reads对。
(10)long_gap:去除有长gaps(>700kb)和短⽐对⽚段(<15nt)的reads。由于某些基因有超过1M的内含⼦,有⼈在⽤STAR⽐对时,为了容纳这些内含⼦会选择把⽐对内含⼦最⼤长度(--alignIntronMax)设置超过该内含⼦长度,这种可能会导致⽐对artifact。
(10)same_gene:去除⽐对到⼀个基因上的reads对。
---------------------待更新------------------------