乌拉那拉青樱⽣物信息学⼊门之基本概念之蛋⽩质同源检测和折叠识别
前⾔门面转让协议
蛋⽩质同源性检测和折叠识别是近些年来⽣物信息学中的热点问题。通过蛋⽩质远同源性检测和折叠识别,能够初步推断未知蛋⽩质的结构和功能。其中,SCOP数据库[1]按照层级结构将蛋⽩质进⾏分类,从上到下依次是:类(class),折叠(fold),超家族(superfamily)和家(family)(如图1-1所⽰)。蛋⽩质远同源性检测的任务就是找出未知蛋⽩质所属的超家族。折叠识别的任务就是找出未知蛋⽩质所属的折叠类型。进⼀步根据所属的超家族和折叠类,推断出未知蛋⽩的结构和功能。由于具有远同源性的蛋⽩质之间序列相似度低(低于30%,超家族层低于30%,折叠层低于20%),所以通过计算的⽅法来解决蛋⽩质远同源性检测问题和折叠识别⼀直是业内的⼀个难题。蛋⽩质远同源性检测研究当中中,相关⽅法主要能分为三类:基于⽐对的⽅法,基于排序的⽅法和基于判别式的⽅法[2]。蛋⽩质折叠识别的研究中,主要研究⽅法分为三类:基于⽐对的⽅法,基于机器学习的⽅法,基于集成的⽅法[3]。
⽬录
蛋⽩质同源检测
了解⼀个研究问题的三⼤步骤:what-->how-->why
what?蛋⽩质同源检测的概念,蛋⽩质在SCOP数据库中分为近同源和远同源关系, 本⽂主要介绍蛋⽩质序列分析中远同源检测的相关⼊门知识。
how? 如何去研究蛋⽩质同源检测的问题,数据集如何构建,当前的研究⽅法主要有哪些?
why? 蛋⽩质同源检测的研究意义什么,本⽂不在赘述,相关知识请移步参考论⽂[2][3]。
蛋⽩质同源基本概念
同源(Homology):描写美食
Homology: the existence of shared ancestry between a pair of structures, or genes, in different species.
如果两个或多个结构具有相同的祖先,也就是它们由⼀个共同的祖先演化⽽来,则称它们同源(Homology)。
在⽣物信息中,同源主要是指序列上的同源,也就是⽤来说明两个或多个蛋⽩质或DNA序列具有相同的祖先。同源关系的强弱可以帮助了解物种间的亲缘关系。⽽且,同源的序列⼀般有相似的功能。序列中同源的部分也被称为保守的(conrved)。
蛋⽩质和DNA的同源性常常通过它们序列的相似性(Sequence similarity)来判定,相似性⼀般⽤检测序列和⽬标序列之间序列⼀致性(Percent identity)来表⽰。
相似性(Sequence similarity)是指序列⽐对过程中⽤来描述检测序列和⽬标序列之间相同DNA碱基或氨基酸残基顺序所占⽐例的⾼低。
近同源与远同源:
⼀般来说,当相似程度⾼于50%时,常推测检测序列和⽬标序列可能是近同源序列;
当相似性程度低于30%时,就难以确定其是否具有同源性,称其为远同源。
同源蛋⽩质:指进化上相关的蛋⽩质。即不同物种中具有相同或相似功能的蛋⽩质或具有明显序列同源性的蛋⽩质。
蛋⽩质远程同源性(remote homology)是指具有同源相似性性的蛋⽩质已经充分进化,不再具有较强的序列间的相似性。
蛋⽩质远程同源性检测(protein remote homology detect)的⽬的是预测蛋⽩质的家族信息,因为具有同源性的蛋⽩质通常具有相似的结构和功能,所以可以由已知蛋⽩质家族的结构和功能推测出新测定蛋⽩质的结构和功能
蛋⽩质家族(Protein family)和蛋⽩质超家族(Protein superfamilies):赛扬g3900
蛋⽩质家族(Protein family)是指⼀组进化上相关的蛋⽩,具有同源性(来⾃于相同祖先),相似的结构及功能,显著的序列相似性。 蛋⽩质超家族(protein superfamily),⼀些蛋⽩质家族被归⼊更⼤的进化分⽀,基于结构机制的相似性,尽管其没有可以确定(显著)的序列同源性。简单⽽⾔,就是蛋⽩质超家族包括了更多进化相关的蛋⽩,虽然没说有同源性,但因为其结构或功能基本相似,也被归为⼀个⼤类。⽽蛋⽩质家族的同源关系是可以确定的,也就是关系上更加严格些。
注意: 蛋⽩质远同源检测就是在超家族层⾯的研究问题。
蛋⽩质同源检测⽅法简介
蛋⽩质远同源性检测研究当中中,相关⽅法主要能分为三类:基于⽐对的⽅法,基于排序的⽅法和基于判别式的⽅法[2].
基于⽐对的⽅法(Alignment method)
核⼼思想在于计算⽬标蛋⽩和折叠已知的模板蛋⽩之间的⽐对分数,将靶蛋⽩指定为具有最⾼⽐对评分的模板蛋⽩的折叠。侧重于检测局部和全局成对序列的相似性。为了提⾼灵敏度,在基于序列-序列⽐对⽅法的基础上进⼀步提出了基于谱的⽐对⽅法⽅法,包括序列-谱⽐对⽅法[4]和基于谱-谱⽐对⽅
法,例如隐马尔可夫模型(HMM)[5]和马尔可夫随机场(MRF)。
基于排序⽅法(Ranking method)
核⼼思想在于把蛋⽩质远同源性检测看作是⼀个信息检索问题[4]。然后根据算法,把数据库中已知结构和功能的蛋⽩质与未知的查询蛋⽩质按照同源关系从近到远排序输出。其中排序算法的关键在于如何计算查询蛋⽩质序列和数据库中已知蛋⽩质序列的同源关系。
基于判别式⽅法(Discrimination method)
核⼼思想是将蛋⽩质远同源性检测看作是蛋⽩质超家族层⾯上的分类问题。对于预测任务,基于判别式的⽅法⾸先将蛋⽩质按照同源关系的远近划分正负样本训练集和测试集。然后⽤训练集中的蛋⽩质训练基于机器学习的分类模型。这个分类模型的性能将由测试集来评估,同时,在实际应⽤中,未知蛋⽩质所属的超家族也将由这个分类模型进⾏预测。
⽬前的判别式模型主要包括基于传统机器学习的⽅法(SVM 等)和基于深度学习技术的⽅法(LSTM, CNN-BLSTM)。
蛋⽩质折叠识别
什么是蛋⽩质折叠识别?与蛋⽩质远同源检测的区别在哪⾥?
蛋⽩质折叠识别简单来说就是在蛋⽩质折叠层⾯识别蛋⽩质。与蛋⽩质远同源检测的不同在于,远同源检测是在蛋⽩质超家族层⾯的研究,折叠识别的问题更加困难,⼀是在数据集上,要求序列相似度低于20%,远同源的要求序列相似度低于(30%);⼆在研究折叠识别问题时要抛开远同源即超家族层⾯的影响,所以要求⽬标蛋⽩与模板蛋⽩可以属于同⼀折叠类别,但不能属于同⼀超家族或家族。
节圆直径
蛋⽩质折叠识别相关概念
蛋⽩质结构域(protein domain)
是中的⼀类结构单元,是构成蛋⽩质的基本单元。有些球形蛋⽩的⼀条肽链,或以相连的两条或多条在空间结构上可以区分为若⼲个球状的⼦结构,其中的每⼀个球状⼦结构就被称为⼀个结构域。
蛋⽩质结构域与蛋⽩质完成⽣理功能有着密切的关系,有时⼏个结构域共同完成⼀项⽣理功能,有时⼀个结构域就可以独⽴完成⼀项⽣理功能,但是⼀个结构不完整的蛋⽩质结构域是不可能产⽣⽣理功能的。因此蛋⽩质结构域是蛋⽩质⽣理功能的结构基础,但必须指出的是,虽然蛋⽩质结构域与蛋⽩质的功能关系密切,但是蛋⽩质结构域和的概念并不相同。
模体(motif)
表⽰具有特定功能的或作为⼀个独⽴结构域⼀部分的相邻的⼆级结构的,它⼀般被称为功能模体(fun
ctional motif)或结构模体(structural motif),相当于(super-condary structure)。模体和结构域⼀起组成了蛋⽩质的三级结构。结构模体作为结构域的组分,介于蛋⽩质⼆级结构和三级结构之间。
蛋⽩质识别⽅法简介
蛋⽩质折叠识别的研究中,相关⽅法主要分为三类:基于⽐对的⽅法,基于机器学习的⽅法和集成学习⽅法。
基于⽐对⽅法
同远同源相似。
基于机器学习⽅法
核⼼思想通过使⽤经典机器学习技术或深度学习技术将蛋⽩质折叠识别视为折叠层⾯的分类任务,包括⼆分类和多分类任务。基于机器学习⽅法⾸先将蛋⽩质按照是否属于⽬标折叠划分正负样本训练集和测试集。然后⽤训练集中的蛋⽩质训练基于机器学习的分类模型。这个分类模型的性能将由测试集来评估,同时,在实际应⽤中,未知蛋⽩质所属的超家族也将由这个分类模型进⾏预测[26]。使⽤判别框架进⾏折叠识别,其关键在于特征提取⽅法和机器学习分类器,所以这些⽅法是基于各种判别特征和强⼤的分类器构建的,例如⽀持向量机(SVM)、随机森林(RF)和深度学习技术。
集成⽅法
控制面板在哪里打开
核⼼思想采⽤共识策略来集成多种识别⽅法。
数据库和基准数据集
1.SCOP数据库
图1-1 SCOP数据库层级结构图(图⽚来⾃Reference2)
2.蛋⽩质同源检测基准数据集
基于SCOP的蛋⽩质远同源检测基准数据集要求数据集必须满⾜任意两个蛋⽩质之间的序列相似度低于30%。且其任务主要是是在超家族层⾯对蛋⽩质进⾏分类识别。因此其构建过程主要包括去冗余操作、正负样本数据集划分和划分后不平衡数据集的处理。
⾸先进⾏去冗余,具体步骤:
去除SCOP数据库中相似度⼤于95%的蛋⽩质序列;
SCOP数据库中少于10条蛋⽩质的家族将会被去除,若某个超家族中只含有⼀个家族,那么在这种情况下,该蛋⽩质超家族⽆法模拟蛋⽩质远同源性检测,因此,这个超家族也将会被去除。
其次,正负样本数据集的划分:
基础数据集中⽬标家族的训练集和测试集的定义由公式(2-1):
(2-1)
其中,k表⽰第k个⽬标家族预测任务的数据集。表⽰第k个正样本测试集,它由第k个家族中的蛋⽩质
组成。表⽰第k个正样本训练集,它由第k个家族所属的超家族中的所有蛋⽩质,除去第k个家族中的蛋⽩质所构成。从除了第k个超家族以外的每个超家族中,随
工作分工
机选取其中⼀个蛋⽩质家族,组合起来成为负样本测试集。然后这些超家族中的其余家族的蛋⽩质作为负样本训练集。构建⽅法⽰意图如2-1所⽰。
图2-1 基准数据集构建⽅法⽰意图(图⽚来⾃Reference2)
最后,不平衡数据集的处理:
基础数据集构建完成之后,由于训练集中的正样本和负样本极不平衡,常常呈百倍差异。⽽这种正负样本的数量差异会导致训练出的分类器在预测时,倾向于将未知样本预测成负样本,在现实应⽤中失去其预测意义。因此,Hochreiter采⽤了⽆监督的⽅法来拓展正样本训练
厨房灶台设计图片大全集[48],拓展后的训练集的表⽰由公式(2-2)所⽰:
(2-2)
其中为第k个拓展的正样本训练集,其获取⽅式为:对于每⼀条属于的蛋⽩质,将其⽤PSI-BLAST⼯具在蛋⽩质数据
库UniRef50数据库中搜索。搜索结果中E-value⼩于10的蛋⽩质序列作为拓展的正样本训练集。
3.蛋⽩质折叠识别基准数据集
此处等我⾃⼰的论⽂发表之后再补充。
图3-1 基准数据集构建⽅法⽰意图(此处等论⽂发表之后再上传)
References
[1]Murzin A G, Brenner S E, Hubbard T, et al. Scop: A Structural Classification of Proteins Databa for the Investigation of
Sequences and Structures[J]. J Mol Biol, 1995, 247(4): 536-540.
[2]李舒敏. 基于深度学习的蛋⽩质远同源性检测[D].哈尔滨⼯业⼤学,2018.
[3]Liu B, Li C, Yan K. DeepSVM-fold: Protein fold recognition by combining Support Vector Machines and pairwi quence
similarity scores generated by deep learning networks, Briefings in Bioinformatics;DOI: 10.1093/bib/bbz098.