荀子的思想⽣信笔记:序列同源性、相似性
这是⼀篇阅读笔记。
表的英文
原⽂ An Introduction to Sequence Similarity (“Homology”) Searching by William R. Pearson( ),作者是FASTA格式的发明者之⼀。
同源 Homology
定义
国际礼仪培训In biology, homology is similarity due to shared ancestry between a pair of structures or genes in different taxa ().同源 (Homology) = 共同进化祖先(Common evolutionary ancestry)
只要有共同祖先,⽆论基因序列、其编码蛋⽩质的结构、功能是什么,都可看作是同源的。
为什么要寻找同源基因
春荒⼀旦发现同源序列,就可以通过多序列⽐对建⽴更准确的⽐对,为后续的表型预测和进化分析奠定基础。
识别同源序列的策略
脱水有什么症状相似性搜索 (similarity arching)
序列相似性搜索可以通过检测过⾼的相似性来识别同源蛋⽩质或基因:当两个序列的相似性超过偶然的预期时,我们推断这两个序列存在同源性。 当观察到过⾼的相似性时,最简单的解释是,这两个序列不是独⽴出现的,它们起源于⼀个共同的祖先。
所以这是统计学意义上的同源性,显著的相似性⼀定程度上反映了同源性。
需要注意的是同源性与相似性是两个不同的概念!
两条⾼度相似的序列可能不存在同源性;同样的,同源序列的相似性也可能很低。例如两条同源序列的相似性⽐对结果不显著,但如果它们在结构上相似性上显著,或者它们都与第三条序列的相似性显著,那么它们显然是同源序列。 因此,当相似性搜索发现统计学上显着的匹配时,我们可以放⼼地推断出这两个序列是同源的。 但是,如果在数据库中找不到统计上显着的匹配项,则不能确定没有同源物。
鲳鱼怎么做最好吃常见的序列⽐对⼯具,如BLAST, FASTA,HMMER等在算法上尽量减少假阳性(fal positives, non-homologs with significant scores; Type I errors)的发⽣,但对假阴性(fal negatives, homolo
足球的好处gs with non-significant scores; Type II errors)没有约束。如果在InterPro和Pfam等域注释库中没有找到注释的蛋⽩质域,那是因为查询序列与已知的同源序列的同源关系太远。
期望()的计算公式:
:期望值,即分数为S时,期望的⾼分序列(HSP)出现的数量 ;
:常数(Karlin Altschul statistics);
:查询序列长度;
:数据库序列的长度。
期望值取决于数据库的⼤⼩,通过对⽐拥有10,000,000个序列数据库得到的e值⽐只有100,000个序列的数据库中找到相同分数时的e值低100倍。但并不是说在⼤的数据库中找到的序列是同源的,⽽⼩的数据库中找到的序列不是同源的。
无名的英雄
与蛋⽩质/蛋⽩质⽐对相⽐,DNA/DNA序列⽐对⽐可能更不容易发现同源性。蛋⽩质(或者翻译后的DNA)相似性搜索要⽐DNA/DNA搜索敏感得多。 经过200-400亿年的演化后,DNA:DNA⽐对⽐对很少能检测到同源性,⽽对于蛋⽩质/蛋⽩质⽐对能检测到25亿年前的共同祖先。
此外,DNA/DNA⽐对不如蛋⽩质/蛋⽩质准确。E值<0.001的蛋⽩质/蛋⽩质⽐对可以可靠地推断同源性,DNA/DNA期望值<10e-6经常是偶然发⽣的,⼀般阈值设为10e-10。提⾼DNA序列搜索灵敏度的最有效⽅法是使⽤翻译的DNA/蛋⽩质⽐对,例如BLASTx和FASTX产⽣的⽐对,⽽不是DNA/DNA⽐对。E E =kmne −λS
E λ,k m n