基因预测原理介绍
reims
图一、真核生物基因结构
基础概念:
随机过程:一族无穷多个、相互有关联的随机变量。记为:
由于参数 t 经常代表时间,故称为随机过程。T常为自然数,整数或区间。当参数取值为整数时,也称为随机序列。
马尔可夫过程:取值为整数的随机过程,若 t = i 时刻的取值只与时刻 i-1 取值有关,则称为马尔可夫过程,亦称为一阶马尔可夫链。
隐马尔可夫模型:存在一个隐序列H,它是不可观测的,且由以下参数生成:
其中πα为初始状态出现概率;Tαβ为转移概率,即tαβ = P(hiskirt的音标= β | hi-1= α); α, β属于{σ}; {σ}为字符集,即隐序列由哪些字符组成。观测的结果称为明序列O,它由隐序列按照生成概率eαa生成。其中eαa = P(a | α);{a}为明序列字符集。
林肯公园新歌隐马氏模型的三种典型问题:
可能性问题:给定模型参数,当观察到一个明序列时,这一明序列确实由给定模型生成的概率有多大?
解码问题:给定模型参数,当观察到一个明序列时,这一明序列所对应的最可能的隐序列
是什么?
学习问题:观察到足够多明序列时,如何估计转移概率和生成概率(有的地方叫发射概率)?
基因组编码区的隐马模型:属于解码问题。假设基因组由两种功能区域组成,即编码区和非编码区。分别由字母c,n代表。转移矩阵为同种字母延伸或变为另一种字母的概率。初始状态概率为第一个字母出现c或n的概率。明序列由A,C,G,T四个字母组成,生成概率分别为编码区和非编码区四个字母出现的概率。
半隐马模型:隐序列的每一个状态持续时间(持续长度)是一个取值为正整数的随机变量,它由另外的概率分布来描述。因为在隐马模型中,状态持续长度为几何分布,这与生物序列的实际情况不符,因而基因预测实际上采用基于编码区长度分度的半隐马模型。
时代周刊下载
马尔可夫阶次:在马尔可夫链中,若 t = i 时刻的取值只与其相邻前N个时刻的取值有关,则称为N阶马尔可夫链。GENSCAN采用的是二阶半隐马尔可夫模型,即基因编码区某碱基的出现概率与其前两个碱基有关,加上其自身正好是一个密码子。BGF采用的是五阶半隐马尔可夫模型,加上其自身正好是两个密码子。
基因,在本文仅指蛋白编码基因,暂不包括非编码RNA基因。
发展背景:
associatewith
隐马尔可夫模型(Hidden Markov Model),简记为HMM,是目前非常流行的数学方法,最初在语音识别领域得到成功的应用。HMM是一个双重随机过程,其中一个过程不能被观察到(即是隐藏的),但是这个随机过程却控制(或影响)另一个随机过程,而后者是可以被观察到的。在基因预测中,这个隐藏的过程对应着基因的真实结构(如外显子,内含子,剪接受体和供体位点,起始密码子,终止密码子,启动子等),而可观察到的过程对应着基因组序列(A,G,C,T)。
基因预测属于HMM的三个基本问题中的第二个,即给定模型和观察序列,如何确定在某种意义上为最优的对应的状态序列,解决这个问题的算法叫Viterbi算法,实际上这就是动态规划算法,动态规划的出发点是Bellman提出的最优化原理。由于HMM只考虑相邻两个状态之间的联系,而不能考虑远程相关,因而在基因预测中实际采用的是改进了的HSMM(Hidden Semi-Markov Models)。
GENSCAN是从未注释的基因组序列中寻找基因的经典软件,它所用的数学方法是构造基因的HSMM概率模型。目标是确定编码外显子的位置,预测序列中的基因个数,既能处理完整的基因,也能处理不完整的基因,而且能够包含在正负两条链上的基因。基因模型中包含的基因特征有:剪接信号模型,外显子长度分布,启动子(promoter)和poly-A信号,考虑到不同的C+G组分区域在基因密度和结构(例如内含子长度)方面的差别。GENSCAN还能够对自己预测的可靠性给出有用的估计。还考虑了亚最优外显子,它们对应于基因的异常剪接。继GENSCAN之后发展起来的基因预测软件有Fgenesh, BGF, GlimmerM等。
gre 考试时间
图二、GENSCAN状态转移图
尚存问题:
当前的基因预测并不完美,主要存在假阳性(Fal Positive, 简称FP),假阴性(Fal Negative, 简称FN),过界预测(Over Prediction, 简称OP), 片断化(Fragmentation), 和融合化(fusion)等问题。评价预测的准确性是用cDNA定位或已知基因结构作为基准的。值得注意的是:对于一个基因,只能预测出一种剪接形式,而无法识别可变剪接;只能预测从起始密码子到终止密码子的区域,而不能预测两端的UTR区域; 对于高等生物,基因组中存在着大量的转座子重复序列,将对基因预测造成严重的影响。
有声故事
假阳性:多预测了假的编码区,即在非编码区预测出编码区。
假阴性:漏掉了真实的编码区。即将编码区预测为非编码区。sorry
过界预测:由于基因的边界很难准确定位,预测经常会超出实际的边界。
环球雅思官网
片断化:内含子过大的基因,在预测时容易断裂成两个或多个基因。
task融合化:距离过近的两个或多个基因,在预测时容易被融合成一个很大的基因。
综合注释:
基因预测为大规模和自动化基因组注释开辟了一条途径,但是目前的准确度还远远不能让人满意,因此在实际的基因组注释过程中,还要综合cDNA/EST,相邻物种homolog, 以及芯片和SAGE等数据。这些信息的综合一般是由人来完成的,故称为人工校正。人工校正需要很多的人力,并且易受经验和偏见的影响,因而很难规模化实行。模拟人工校正的综合注释软件已经出现,如GLEAN, JISAW, GENOMIX等。