生物信息学期末复习知识点总结

更新时间:2023-08-11 13:45:09 阅读: 评论:0

生物信息学:利用数学、物理、化学的理论、技术和方法,以计算机为工具,对生命现象加以研究,得到深层次的生物学知识。
研究任务:四级常考词组收集与管理生物分子数据,对数据进行处理分析,为其它生物学研究提供服务
四大“模式生物”:酵母、线虫、果蝇、小鼠
糖的生物功能 ,作为燃料(是生命活动所需的能源),重要的中间代谢物,参与生物大分子组成,作为信号分子
脂类的生物功能 ,构成生物膜的骨架,储存能量(效率是糖的2倍左右),构成生物表面的保护层、保温层,重要的生物学活性物质
蛋白质的生物功能 ,是遗传信息转化成生物结构和功能的表达者;参与基因表达的调节,以
及细胞中氧化还原反应、电子传递、神经传递、学习记忆等重要生命过程;  酶(一类重要的蛋白质)在细胞和生物体内各种生化反应中起催化作用;
蛋白质的空间结构
一级结构(primary structure)多肽链中氨基酸数目、种类和线性排列顺序refurbished
二级结构(condary structure)氢键形成 -螺旋(  -helix)链间形成 -折叠( -sheet)
三级结构(tertiary structure)肽链进一步沿多方向盘绕成紧密的近似球状结构
四级结构(quaternary structure)具有特定构象的肽链进一步结合,并在空间相互作用
检索方法:1)追溯法: 通过已知文献后附有的参考文献中提供的线索来查找文献。
(2)常用法:利用各种检索工具来查找文献。
(3)循环法:是将常用法和追溯法交替使用的一种综合文献检索方法。
(4)浏览法: 是从本专业期刊或其它类型的原始文献中直接查阅文献资料。
检索途径:著者途径:分类途径:主题途径:其它途径;
检索过程:(1)分析研究课题(2)制定检索策略(3)查找文献线索(4)获得原始文献
大规模基因组DNA测序:
鸟枪法( Shot-gun quencing)方法:借助物理或化学的手段将整个基因组随机打断成一定大小的片段进行测序,再根据序列间的重叠关系进行计算机排序与组装,确定它们在基因组中的位置。美国之声广播电台
适用范围:主要用于重复序列少、相对简单的原核生物基因组的测序工作。不适用于分析较大的、更复杂的基因组。优点:速度快、简单易行、成本低
克隆重叠群法(clone contig quencing)方法:先将染色体打成比较大的片段(几十-几百Kb),利用分子标记将这些大片段排成重叠的克隆群,分别测序后拼装。需要绘制物理图谱,以鸟枪法为基础。适用范围:较大的、更复杂的基因组
蛋白质结构解析:X射线晶体衍射;核磁共振波谱学
其他方法:扫描隧道电子显微镜–圆二色谱
一级数据库:直接来源于实验获得的原始数据,只经过简单的归类、整理和注释。
二级数据库:在一级数据库、实验数据和理论分析的基础上,针对不同的研究内容和需要,对生物学知识和信息的进一步整理得到的数据库。
序列比较的根本任务是:通过比较生物分子序列,发现他们之间的
相似性,找出序列之间共同的 区域,同时辨别序列之间的差异。
同源性:是指序列们是由共同祖先进化而来,讲两条序列的同源关系,只有两种情况:同源、不同源。相似性:指序列间的差别,是一个度量。
同源与相似的关系:一般认为序列相似性达到一定程度,即可认为是同源,但不绝对。
序列比对算法实现:点阵分析 :寻找序列间可能的性状对位排列;寻找蛋白质、DNA序列中正向或反向重复;预测RNA中自补区域;直观,整体水平;动态规划算法 :精确而全面,非常耗费资源;启发式算法
滑动窗口技术: 使用滑动窗口代替一次一个位点的比较是解决这个问题的有效方法。
动态规划算法计算过程:1计算过程从d 0 , 0开始,2 可以是按行计算,每行从左到右,也可以是按列计算,每列从上到下。3当然,任何计算过程,只要满足在计算d i , j时d i-1 , j、d i-1 , j-1、和d i, j-1都已经被计算这个条件即可。3在计算d i , j后,需要保存d i , j是从d i-1 , j、d i-1 , j-1、或d i, j-1中的哪一个推进的,或保存计算的路径,以便于后续处理。
上述计算过程到d m , n结束。
最优路径求解:与计算过程相反,从d m , n开始,反向前推。
基因的定义1、基因是一段与多肽链或功能RNA产生有关的DNA片段,包括编码区前的引导序列、编码区后的尾部序列、编码区内的插入序列和编码区序列。
基因的种类:结构基因、调控基因, rRNA基因和tRNA基因 启动子,操纵基因
因组(genome)是指一个细胞或病毒包含的全部遗传信息的总和。
TP(true positive):实际编码区的核酸中被成功预测的核酸数目;
TN(true negative):实际非编码区的核酸中被成功预测的核酸数目;
FN(fal negative):实际编码区的核酸中被误测为非编码的核酸数目;
FP(fal positive):实际非编码区的核酸中被误测为编码的核酸数目。
敏感性(nsitivity,Sn)
特异性(specificity,Sp):
FM法:1.找出关系最近的序列对,如A和B
2.将剩余的序列作为一个简单复合序列,分别计算A、B到所有其他序列的距离的平均值
3.用这些值来计算A和B间的距离
4.将A、B作为一个单一的复合序列AB,计算与每一个其他序列的距离,生成新的距离矩阵
5.确定下一对关系最近的序列,重复前面的步聚计算枝长outernet
7.从每个序列对开始,重复整个过程
8.对每个树计算每对序列间的预测距离,发现与原始数据最符合的树
蛋白质亚细胞定位预测的方法 :
1)基于信号肽的方法来预测蛋白质亚细胞定位
(2)基于氨基酸组份或氨基酸物理化学性质的方法来预测蛋白质亚细胞定位
(3)基于蛋白质功能注解的方法来预测蛋白质亚细胞定位
(4)基于系统发生的分布图、结构域投影或结合进化和结构信息的方法来预测蛋白质亚细胞定位
Sn=TP/(TP+FN)
Sp=TP/(TP+FP)
ost是什么意思
项目
uncommittedLength
手机英语词典下载TP
FP
FN
Sn
Sp
accuracy
ZCURVE_V
12
12
0
2
0.86
1
0.93
Glimmer NCBI
14
10
4
考拉的英文4
0.71
0.71
0.71
GeneMark NCBI
9
9
0shook
5造化弄人英文
0.64
1
0.82
核酸数据库:GenBank、EMBL、DDBJ
  蛋白质序列数据库:SWISS-PROT、PIR
  蛋白质结构数据库:PDB

本文发布于:2023-08-11 13:45:09,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/fanwen/fan/90/193753.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:序列   方法   生物   蛋白质   预测
相关文章
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图