基因预测
西南科技大学生命科学与工程学院
基因预测的方法
从头预测(ab initio)
同源比对
从头预测和同源比对相结合的方法
基因预测基础
编码区的隐马尔可夫模型
起始密码子
终止密码子
剪切位点(acceptor,branch point,donor)
转录起始位点
PolyA
基因预测软件的评估
目前基因预测的准确性,碱基水平上为~80%,外显子水平上为:~45%,基因水平上为:~20%
假阴性(FN)和假阳性(FP)
灵敏度(Sn)=TP/(TP+FN)
特异性(Sp)=TP/(TP+FP)
不同方面的基因预测
原核生物的基因预测
真核生物的基因预测
tRNA基因的预测
microRNA的预测
原核生物的基因预测
Glimmer
GeneMark
瓶子简笔画>阿弥陀佛的意思
FgeneSH
GRAIL
GeneFinder
GetORF
GLIMMER
TIGR开发的原核基因预测软件
预测的准确性在97~98%之间,FN在~1%
所用的模型是内插马尔可夫模型
主页:cbcb.umd.edu/software/glimmer/
GLIMMER的使用
训练
提取最长的ORF:long-orfs
提取ORF的序列:extract
生成训练参数:build-icm
用训练好的参数进行基因预测:glimmer2
预测结果的格式
1 310 158 [-2 L= 153 r=-1.296] [ShadowedBy #23]
2 1141 494 [-2 L= 648 r=-1.345] [ShadowedBy #3]
3 431 2152 [+2 L=1722 r=-1.360] [Contains #2] [OlapWith #8 L=121 S=6] [DelayedBy #23 L=306]
4 2152 2292 [+1 L= 141 r=-1.291] [ShadowedBy #8]
NCBI ORF Finder
醋英文ORF Finder 结果
真核生物基因预测
Genscan
BGF
FgeneSH
GeneMark
Genid
顾客回头率GRAIL
锋尚maxGenScan
C. Burge
27态模型
三国时期三大战役目前有人,玉米和拟南芥三套参数
主页:genes.mit.edu/GENSCAN.html
对人的基因预测较为理想
GenScan的使用
> genscan paramfile qfile [options]
参数有:
-v : 显示详细的帮助文档
-隐约的反义词
cds : 输出预测基因的CDS序列
-subopt n: 显示分数大于阈值的外显子,最小为0.01
-ps f s : 输出文件名为f缩放率为s的PostScript格式的结果
GenScan文本结果
Gn.Ex Type S .Begin ...End .Len Fr Ph I/Ac Do/T Tscr..
----- ---- - ------ ------ ---- -- -- ---- ---- ----- ----- ------
1.01 Init + 1664 1774 111 1 0 94 83 212 0.997 21.33
1.02 Intr + 2042 2220 179 1 2 104 66 408 0.997 40.12
1.03 Intr + 2374 2533 160 1 1 89 94 302 0.999 32.08
1.04 Term + 3231 3350 120 2 0 115 48 202 0.961 18.31
GenScan的图形结果
BGF
自主开发
目前有水稻,果蝇和家蚕三套参数
主页:ics
对水稻的基因预测比其他预测软件好
新版的性能有提升明显
BGF的使用
> ./bgf [options] paramfile qfile1 qfile2 ...
有用的参数有:
-e 显示所有的外显子
BGF的主页
BGF的结果
Gene# S Exon# Type Start End ORF_S ORF_E Score Len
===== = ===== ==== ======= = ======= ======= = ======= ======= ======
1 + 1 Term 53 - 2155 53 - 2155 8.96 2103
1 + PolA 6076 - -0.27
2 + Prom 6210 - -3.25
2 + 1 Sngl 7290 - 9260 7290 - 9260 8.77 1971
2 + PolA 14191 - 0.48
3 + Prom 15397 - -3.85
3 + 1 Init 15874 - 15984 15874 - 15984 5.51 111
3 + 2 Intr 16252 - 16430 16252 - 16428 7.53 179
3 + 3 Intr 16584 - 16743 16585 - 16743 7.77 160
3 + 4 Intr 18207 - 18296 18207 - 18296 0.40 90
FgeneSH的使用
FgeneSH的预测结果(文本)
FgeneSH的预测结果(图形)
GeneMark
GeneMark的结果(文本)
GeneMark结果(图形)
TwinScan
用C++实现的GenScan
同源和从头预测并重
主页:genes.cs.wustl.edu
目前有拟南芥,人,线虫和隐球菌
在外显子和基因水平上有显著提高
TwinScan的使用
用BLAST进行比对
从自带的conq.pl提取保守区信息
>conq.pl [options] qfile blastfile1 blastfile2 ...
进行基因预测
爱情神话故事>iscan [options] hmmfile qfile [-c=conqfile | -a=alignfile] [-e=estfile]
TwinScan的预测结果
# ../bin/iscan
# Date: Fri Feb 24 15:45:10 2006
# Twinscan version 3.0 build 20051110RB
# Genome Parameters: ../parameters/human_iscan-9993-genes-09-13-2004.zhmm
# Target Sequence: >21 dna:chromosome chromosome:NCBI35:21:44344133:44444133:1
# Target 100001bp C+G = 55.7424%
# This is the 1-th best path.
# Score: 3972.07
chr.fa iscan start_codon 1740 1742 . + 0 gene_id "chr.fa.001"; transcript_id "chr.fa.001.1";
chr.fa iscan CDS 1740 2120 113 + 0 gene_id "chr.fa.001"; transcript_id "chr.fa.001.1";
chr.fa iscan CDS 2695 2866 117 + 0 gene_id "chr.fa.001"; transcript_id "chr.fa.001.1";
chr.fa iscan CDS 2955 3149 297 + 2 gene_id "chr.fa.001"; transcript_id "chr.fa.001.1";
chr.fa iscan CDS 3470 3693 380 + 2 gene_id "chr.fa.001"; transcript_id "chr.fa.001.1";
chr.fa iscan CDS 8371 8632 110 + 0 gene_id "chr.fa.001"; transcript_id "chr.fa.001.1";
tRNAScan-SE
预测真核和原核的tRNA基因
预测的准确度在99%
预测速度在30k/s
主页:ics.wustl.edu/eddy/tRNAscan-SE/
类似的软件有pol3scan和FAStRNA
tRNAScan-SE的用法
> tRNAScan-SE [options] qfile1 qfile2 ...
其他重要的参数:
-B or -P : 预测细菌的tRNA基因
-A : 预测古细菌的tRNA基因