ANNOVAR注释软件

更新时间:2023-06-18 09:22:04 阅读: 评论:0

ANNOVAR注释软件
ANNOVAR简介
ANNOVAR是由王凯编写的⼀个注释软件,可以对SNP和indel进⾏注释,也可以进⾏变异的过滤筛选。
ANNOVAR能够利⽤最新的数据来分析各种基因组中的遗传变异。主要包含三种不同的注释⽅法,Gene-bad Annotation(基于基因的注释)、Region-bad Annotation(基于区域的注释)、Filter-bad Annotation(基于筛选的注释)。
ANNOVAR由Perl编写。
优点:提供多个数据可直接下载、⽀持多种格式、注释直观;
缺点:没有数据库的物种⽆法注释。
乙免ANNOVAR结构
1ANNOVAR
2│  annotate_variation.pl #主程序,功能包括下载数据库,三种不同的注释
3│  coding_change.pl #可⽤来推断蛋⽩质序列
4│  convert2annovar.pl #将多种格式转为.avinput的程序
5│  retrieve_q_from_fasta.pl #⽤于⾃⾏建⽴其他物种的转录本
6│  table_annovar.pl #注释程序,可⼀次性完成三种类型的注释
7│  variants_reduction.pl #可⽤来更灵活地定制过滤注释流程
8│
9├─example #存放⽰例⽂件
10│
手机自动重启是怎么回事
11└─humandb #⼈类注释数据库
ANNOVAR下载数据库
命令⽰例
1[kaiwang@biocluster ~/]$ Perl annotate_variation.pl -buildver hg19 -downdb -webfrom annovar refGene humandb/
2# -buildver 表⽰version
3# -downdb 下载数据库的指令
4# -webfrom annovar 从annovar提供的镜像下载,不加此参数将寻找数据库本⾝的源
5# humandb/ 存放于humandb/⽬录下
ANNOVAR的官⽅⽂档列出了可供下载的数据库及版本、更新⽇期等信息,
也可以通过命令下载下来本地查看,命令如下:
cd ~/src/annovar
perl annotate_variation.pl -downdb -webfrom annovar avdblist humandb/ -buildver hg19
more ./humandb/
ANNOVAR 输⼊格式
01[kaiwang@biocluster ~/]$ cat example/ex1.avinput
02  1 948921 948921 T C comments: rs15842, a SNP in 5\\' UTR of ISG15 03  1 1404001 1404001 G T comments: rs149123833, a SNP in 3\\' UTR of ATAD3C
04  1 5935162 5935162 A T comments: rs1287637, a splice site variant in NPHP4
05  1 162736463 162736463 C T comments: rs1000050, a SNP in Illumina SNP arrays 06  1 84875173 84875173 C T comments: rs6576700 or SNP_A-1780419, a SNP in Affymetrix SNP
arrays
07  1 13211293 13211294 TC - comments: rs59770105, a 2-bp deletion
08  1 11403596 11403596 - AT comments: rs35561142, a 2-bp inrtion
09  1 105492231 105492231 A ATAAA comments: rs10552169, a block substitution 10  1 67705958 67705958 G A comments: rs11209026 (R381Q), a SNP in IL23R associated with
ANNOVAR 使⽤.avinput 格式,如以上代码所⽰,该格式每列以tab 分割,最重要的地⽅为前5列,分别是:
1. 染⾊体(Chromosome)
2. 起始位置(Start)
3. 结束位置(End)
4. 参考等位基因(Reference Allele)
5. 替代等位基因(Alternative Allele)
6. 剩下为注释部分(可选)。
ANNOVAR 主要也是依靠这5处信息对数据库进⾏⽐对,进⽽注释变异。
ANNOVAR 格式转换
命令⽰例
ANNOVAR 主要使⽤convert2annovar.pl 程序进⾏转换,转换后⽂件是精简过的,主要包含前⾯提到的5列内容,如果要将原格式的⽂件的所有内容都包含在转换后的.avinput ⽂件中,可以使⽤-includeinfo 参数;如果需要分开每个sample 输出单⼀的.avinput ⽂件,可以使⽤-alls ample 参数,等等。
ANNOVAR 还主要⽀持以下格式转换:SAMtools pileup format Complete Genomics format
GFF3-SOLiD calling format SOAPsnp calling format
MAQ calling format
CASAVA calling format
ANNOVAR 注释功能小狗图片
table_annovar.pl 进⾏注释(可⼀次性完成三种类型的注释)命令⽰例输出的csv ⽂件将包含输⼊的5列主要信息以及各个数据库⾥的注释,此外,table_annoval.pl 可以直接对vcf ⽂件进⾏注释(不需要转换格式),注释的内容将会放在vcf ⽂件的“INFO”那⼀栏。
Gene-bad Annotation(基于基因的注释)Crohn\\'s dia 11
2 234183368 234183368 A G comments: rs2241880 (T300A), a SNP in the ATG16L1 associated with Crohn\\'s dia 1216 50745926 50745926 C T comments: rs2066844 (R702W), a non-synonymous SNP in NOD21316 50756540 50756540 G C comments: rs2066845 (G908R), a non-sy
nonymous SNP in NOD21416 50763778 50763778 - C comments: rs2066847 (c.3016_3017insC), a frameshift SNP in NOD2 15
13 20763686 20763686 G - comments: rs1801002 (del35G), a frameshift mutation in GJB2,associated with hearing loss 1613 20797176 21105944 0 - comments: a 342kb deletion encompassing GJB6, associated with hearing loss
1$ convert2annovar.pl -format  vcf4 example/ex2.vcf > ex2.avinput 2# -format vcf4 指定格式为vcf
1[kaiwang@biocluster ~/]$ table_annovar.pl example/ex1.avinput humandb/ -buildver hg19 -out myanno -remove -protocol refGene,cytoBand,genomicSuperDups,esp6500siv2_all,1000g2014oct_all,1000g2014oct_afr,1000g2014oct_eas,1000g2014oct_eur,snp138,ljb26_all -operation g,r,r,f,f,f,f,f,f,f -nastring . -csvout 2# -buildver hg19 表⽰使⽤hg19版本3# -out myanno 表⽰输出⽂件的前缀为myanno 4# -remove 表⽰删除注释过程中的临时⽂件5# -protocol 表⽰注释使⽤的数据库,⽤逗号隔开,且要注意顺序6# -operation 表⽰对应顺序的数据库的类型(g 代表gene-bad 、r 代表region-bad 、f 代表filter-bad ),⽤逗号隔开,注意顺序7# -nastring . 表⽰⽤点号替代缺省的值8
# -csvout 表⽰最后输出.csv ⽂件
基于基因的注释(gene-bad annotation )揭⽰variant 与已知基因直接的关系以及对其产⽣的功能性影响,需要使⽤for gene-bad 的数据库。
命令⽰例因为annotate_variation.pl 默认使⽤gene-bad 注释类型以及refGene 数据库,所以上⾯的命令可以缺省-geneanno -dbtype refGene 。运⾏命令后将会⽣成3个⽂件:
1. ex1.variant_function 注释所有变异所在基因及位置
2. icvariantfunction 详细注释外显⼦区域的变异功能、类型、氨基酸改变等
3. ex1.ann.log log ⽂件,包含运⾏的命令⾏及运⾏提⽰,所⽤数据库⽂件
ex1.variant_function 第⼀个⽂件以.variant_function 结尾,主要的内容如下
注释后输出的⽂件,同样每列以tab 分割,第1列为变异所在的类型,如外显⼦(exonic )、UTR5、UTR3等(官⽅⽂档有详细的)。如果第1列的为外显⼦、内含⼦或者⾮编码RNA ,第⼆⾏将是对应的基因名(有多个基因名则会以逗号隔开);否则第⼆列将会给出相邻的两个基因以及对应的距离。
新年的英语单词
从第3列开始⾄第7列为输⼊的那5列主要信息,剩余为注释信息。
需要注意的是,如果该变异找到多种注释,ANNOVAR 将会对它进⾏⽐较,以exonic = splicing > ncRNA > UTR5/UTR3 > intron > upstrea m/downstream > intergenic 的优先权重,取最优的表⽰,如果你想ANNOVAR 列出该变异所有注释,可以使⽤--parate 参数。
蝰鱼1
[kaiwang@biocluster ~/]$ annotate_variation.pl -geneanno -dbtype refGene -out ex1 -build hg19example/ex1.avinput humandb/2# -geneanno  表⽰使⽤基于基因的注释3# -dbtype refGene  表⽰使⽤"refGene"数据库4# -out ex1  表⽰输出⽂件以ex1为前缀
01[kaiwang@biocluster ~/]$ cat ex1.variant_function 02
UTR5 ISG15(NM_005101:c.-33T>C) 1 948921 948921 T C comments: rs15842, a SNP in 5\\' UTR of ISG15 03
UTR3 ATAD3C(NM_001039211:c.*91G>T) 1 1404001 1404001 G T comments: rs149123833, a SNP in 3\\' UTR of ATAD3C 04
splicing NPHP4(NM_001291593:exon19:c.1279-2T>A,NM_001291594:exon18:c.1282-2T>A,NM_015102:exon22:c.2818-2T>A) 1 5935162 5935162 A T comments: rs1287637, a splice site variant in NPHP4 05intronic DDR2 1 162736463 162736463 C T comments: rs1000050, a SNP in Illumina SNP arrays 06
intronic DNASE2B 1 84875173 84875173 C T comments: rs6576700 or SNP_A-1780419, a SNP in Affymetrix SNP arrays 07
intergenic LOC645354(dist=11566),LOC391003(dist=116902) 1 13211293 13211294 TC -comments: rs59770105, a 2-bp deletion 08
intergenic UBIAD1(dist=55105),PTCHD2(dist=135699) 1 11403596 11403596 - AT comments:rs35561142, a 2-bp inrtion 09
intergenic LOC100129138(dist=872538),NONE(dist=NONE) 1 105492231 105492231 A ATAAA comments: rs10552169, a block substitution 10
exonic IL23R 1 67705958 67705958 G A comments: rs11209026 (R381Q), a SNP in IL23R associated with Crohn\\'s dia 11
exonic ATG16L1 2 234183368 234183368 A G comments: rs2241880 (T300A), a SNP in the ATG16L1 associated with Crohn\\'s dia 12
exonic NOD2 16 50745926 50745926 C T comments: rs2066844 (R702W), a non-synonymous SNP in NOD2 13
exonic NOD2 16 50756540 50756540 G C comments: rs2066845 (G908R), a non-synonymous SNP in NOD2 14
exonic NOD2 16 50763778 50763778 - C comments: rs2066847 (c.3016_3017insC), a frameshift SNP in NOD2 15
exonic GJB2 13 20763686 20763686 G - comments: rs1801002 (del35G), a frameshift mutation in GJB2, associated with hearing loss 16exonic CRYL1,GJB6 13 20797176 21105944 0 - comments: a 342kb deletion encompassing GJB6,associated with hearing loss
1[kaiwang@biocluster ~/]$ ic_variant_function 2
line9 nonsynonymous SNV IL23R:NM_144701:exon9:c.G1142A:p.R381Q, 1 67705958 67705958 G A comments: rs11209026 (R381Q), a SNP in IL23R associated with Crohn\\'s dia 3line10 nonsy
nonymous SNV ATG16L1:NM_001190267:exon9:c.A550G:p.T184A,ATG16L1:NM_017974:exon8:c.A841G:p.T281A ,ATG16L1:NM_001190266:exon9:c.A646G:p.T216A,ATG16L1:NM_030803:exon9:c.A898G:p.T300A,ATG16L1:NM_198890:exon5:c.A409G:p.T137A, 2 234183368 234183368 A G comments:rs2241880 (T300A), a SNP in the ATG16L1 associated with Crohn\\'s dia 4line11 nonsynonymous SNV NOD2:NM_022162:exon4:c.C2104T:p.R702W,NOD2:NM_001293557:exon3:c.C2023T:p.R675W,16 50745926 50745926 C comments: rs2066844 (R702W), a non-synonymous SNP in NOD2 5line12 nonsynonymous SNV NOD2:NM_022162:exon8:c.G2722C:p.G908R,NOD2:NM_001293557:exon7:c.G2641C:p.G881R,16 50756540 50756540 G comments: rs2066845 (G908R), a non-synonymous SNP in NOD2 6
line13 frameshift inrtion
该⽂件的第1列为.variant_function ⽂件中该变异所在的⾏号;第2列为该变异的功能性后果,如⾮同义SNV 、同义SNV 、移码插⼊等(官⽅⽂档同样有详细的);第3列包括基因名称、转录识别标志和相应的转录本的序列变化。第四列开始为输⼊⽂件的内容。
Region-bad Annotation (基于区域的注释)
基于过滤的注释精确匹配查询变异与数据库中的记录:如果它们有相同的染⾊体,起始位置,结束位置,REF 的等位基因和ALT 的等位基因,才能认为匹配。基于区域的注释看起来更像⼀个区域的查询(这个区域也可以是⼀个单⼀的位点),在⼀个数据库中,它不在乎位置的精确匹配,它不在乎核苷酸的识别。
基于区域的注释(region-bad annotation )揭⽰variant 与不同基因组特定段的关系,例如:它是否落在已知的保守基因组区域。基于区域的注释的数据库⼀般由UCSC 提供。
命令⽰例输出⽂件是ex1.hg19_phastConsElements46way ,可以看到,Region-bad 注释将会⽣成以注释数据库为后缀的注释⽂件。该⽂件主要内容有
输出的注释⽂件第1列为“phastConsElements46way”,对应注释的类型,这⾥的phastCons 46-way alignments 属于保守的基因组区域的注释;第⼆列包含评分和名称,评分来⾃UCSC ,可以使⽤--score_threshold 和--normscore_threshold 来过滤评分低的变异,“Name=lod=x”名称表⽰该区域的名称;剩余的部分为输⼊⽂件的内容。
Filter-bad Annotation (基于过滤的注释)
filter-bad 和region-bad 主要的区别是,filter-bad 针对mutation (核苷酸的变化)⽽region-bas
梦见抓螃蟹是什么征兆ed 针对染⾊体上的位置。例如region-b ad ⽐对chr1:1000-1000⽽filter-bad ⽐对chr1:1000-1000上的A->G 。
基于过滤的注释,使⽤不同的过滤数据库,可以给出这个variant 的⼀系列信息。如在全基因组数据中的变异频率,可使⽤1000g2015aug 、kaviar_20150923等数据库;在全外显组数据中的变异频率,可使⽤exac03、esp6500siv2等;在孤⽴的或者低代表⼈群中的变异频率,可使⽤ajews 等数据库。(在ANNOVAR 官⽅⽂档中也有)
命令⽰例运⾏命令后,已知的变异会被写⼊⼀个*dropped 结尾的⽂件,⽽没有在数据库中找到的变异将会被写⼊*filtered 结尾的⽂件,*droppe d ⽂件是我们所需要的结果。这个⽂件内容如下
NOD2:NM_022162:exon11:c.3017dupC:p.A1006fs,NOD2:NM_001293557:exon10:c.2936dupC:p.A979fs, 16 50763778 5076377comments: rs2066847 (c.3016_3017insC), a frameshift SNP in NOD2 7
line14 frameshift deletion GJB2:NM_004004:exon2:c.35delG:p.G12fs, 13 20763686 20763686 G -comments: rs1801002 (del35G), a frameshift mutation in GJB2, associated with hearing loss 8line15 frameshift deletion GJB6:NM_001110221:wholegene,GJB6:NM_001110220:wholegene,GJB6:NM_001110219:wholege ne,CRYL1:NM_015974:wholegene,GJB6:NM_006783:wholegene, 13 20797176 21105944 0 -comm
ents: a 342kb deletion encompassing GJB6, associated with hearing loss
1
[kaiwang@biocluster ~/]$ annotate_variation.pl -regionanno -build hg19 -out ex1 -dbtype phastConsElements46way example/ex1.avinput humandb/2# -regionanno 表⽰使⽤基于区域的注释3# -dbtype phastConsElements46way 表⽰使⽤"phastConsElements46way"数据库,注意需要使⽤Region-bad 的数据库
1[kaiwang@biocluster ~/]$ cat ex1.hg19_phastConsElements46way 2
护眼日phastConsElements46way Score=387;Name=lod=50 1 67705958 67705958 G A comments:rs11209026 (R381Q), a SNP in IL23R associated with Crohn\\'s dia 3
phastConsElements46way Score=420;Name=lod=68 16 50756540 50756540 G C comments:rs2066845 (G908R), a non-synonymous SNP in NOD2 4
phastConsElements46way Score=385;Name=lod=49 16 50763778 50763778 - C comments:rs2066847 (c.3016_3017insC), a frameshift SNP in NOD2 5
phastConsElements46way Score=395;Name=lod=54 13 20763686 20763686 G - comments:rs1801002 (del35G), a frameshift mutation in GJB2, associated with hearing loss 6phastConsElements46way Score=545;Name=lod=218 13 20797176 21105944 0 - comments: a 342kb deletion encompassing GJB6, associated with hearing loss
1
[kaiwang@biocluster ~/]$ annotate_variation.pl -filter -dbtype 1000g2012apr_eur -buildver hg19 -out ex1 example/ex1.avinput humandb/2# -filter 使⽤基于过滤的注释3# -dbtype 1000g2012apr_eur 使⽤"1000g2012apr_eur"数据库
01[kaiwang@biocluster ~/]$ cat ex1.hg19_EUR.sites.2012_04_dropped 02
1000g2012apr_eur 0.04 1 1404001 1404001 G T comments: rs149123833, a SNP in 3\\' UTR of ATAD3C 03
张艺兴头像1000g2012apr_eur 0.87 1 162736463 162736463 C T comments: rs1000050, a SNP in Illumina SNP arrays 04
1000g2012apr_eur 0.81 1 5935162 5935162 A T comments: rs1287637, a splice site variant in NPH
P4 05
1000g2012apr_eur 0.06 1 67705958 67705958 G A comments: rs11209026 (R381Q), a SNP in IL23R associated with Crohn\\'s dia 06
1000g2012apr_eur 0.54 1 84875173 84875173 C T comments: rs6576700 or SNP_A-1780419, a SNP in Affymetrix SNP arrays 071000g2012apr_eur 0.96 1 948921 948921 T C comments: rs15842, a SNP in 5\\' UTR of ISG15 081000g2012apr_eur 0.05 16 50745926 50745926 C T comments: rs2066844 (R702W), a non-synonymous SNP in NOD2

本文发布于:2023-06-18 09:22:04,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/fanwen/fan/89/1043802.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:注释   数据库   变异   区域   基因   类型   下载
相关文章
留言与评论(共有 0 条评论)
   
验证码:
推荐文章
排行榜
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图