生物信息学中的e-value和z-scores
发信站:日月光华(2005年05月11日13:20:31星期三),站内信件
blast里面的话e-value和z-score都是和序列匹配的显著程度有关的,核酸
序列和蛋白序列都适用。你用blast搜索数据库,在每一对query和hit序列都
会有一个e-value和一个z-score。
E=-ln(1-p)
其中的p表示你的query序列和目的序列匹配是由于随机造成的概率,也就是假
阳性概率
p的范围在0-1之间所以E的范围是0到正无穷
假如一条很短的序列ATGG它匹配了另一条序列ACGG
那么这两条序列的p值应该是(1/4)^3*(3/4)=0.01171875
E=-ln(1-p)=0.011787956(不知道计算有没有失误....)
不过原理就是这样的因此e-value越小则序列匹配得越好
z-score统计学上的意义是某变量与均值的偏差再除以方差,越大的话可能性越
小
与一些数据库的参数有关还有normalization的过程复杂我不写了
总之,e-value和z-score是衡量序列相似性的指标,e越小,z越大,则两序
列越相似
evalue一般越小越好,也取决于你对数据的要求,一般0.01以上的是肯定不
可信的。
本文发布于:2022-12-31 17:52:05,感谢您对本站的认可!
本文链接:http://www.wtabcd.cn/fanwen/fan/90/66912.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |