AlphaFold2的原理和架构及其在生物学和医学领域的应用
2023年3月14日,四川大学华西医院华西生物医学大数据中心的陈润生院士团队在signal transduction and targeted therapy发表文章,总结了AlphaFold2的原理和系统架构、成功的原因,以及在生物学和医学领域的应用,此外还讨论了目前AF2预测的局限性。
绘画比赛活动方案概要
AF2有望对生物学和医学领域产生重大影响,并可能改变我们进行结构生物学、药物发现、蛋白质设计等相关研究的方式。尽管自AF2开发以来时间很短,但已经有许多与AF2相关的研究报道。为了更好地理解AF2并推广其应用,本文将总结AF2的算法和工作原理及其成功原因,特别是重点回顾其在生物学和医学领域的应用。还将讨论当前AF2预测的局限性。
叛碟追击
蛋白质结构预测
到目前为止,已经报道了许多蛋白质结构预测的算法。尽管差异很大,但它们可以大致分为三大类:同源建模、从头建模和基于机器学习的建模。
(1)同源建模
宽粉怎么做好吃
同源建模,也称为比较建模或基于模板的建模,基于蛋白质的3D结构比其氨基酸序列更保守的假设,因此相似的氨基酸序列应该具有相似的3D结构。同源性建模方法主要使用两种技术:序列比对和分子建模。同源性建模的基本工作流程如下:给定目标氨基酸序列,第一步是从结构已知的蛋白质数据库中寻找其同源序列,然后进行序列比对。然后,将结构已知的同源蛋白的氨基酸坐标作为目标蛋白的相应氨基酸的坐标。随后,进行分子建模以调整氨基酸对之间的不利相互作用。最后,对生成的三维结构进行评估。
鸭子做法
同源建模方法是几十年前最流行的方法。同源性建模的优点包括算法简单、预测速度快以及具有结构已知同系物的蛋白质的高精度。缺陷在于它非常依赖于模板结构,这意味着它无法预测同系物结构中尚未确定的蛋白质的结构。
(2)从头建模
英文贺卡从头建模是一种基于“第一原理”的蛋白质结构预测方法。与同源建模不同,从头建模不依赖于已知的蛋白质结构,而是仅基于既定的物理定律(量子力学)生成目标蛋白质的 3D 结构。简而言之,从头建模方法以氨基酸的原子坐标为变量,在设计的能量函数的指导下进行构象搜索。在这个过程中会产生许多可能的构象,并且选择能量最低的构象。显然,
从头建模方法取决于两个因素:(1)表示目标蛋白相对于氨基酸原子坐标的自由能的能量函数;(2)一种有效的构象搜索算法,可以快速识别低能量状态。
关于基于从头建模的蛋白质结构预测有许多研究。从头建模的优点包括:(1)它不依赖于已知的蛋白质结构,这意味着它能够在没有任何先前结构知识的情况下预测蛋白质结构;(2)具有发现新的蛋白质结构类型的可能性。
然而,这种方法面临两个主要障碍。第一个是自由能函数。从理论上讲,自由能的精确计算需要解决薛定谔方程,这需要大量的计算,即使是现在我们也负担不起。因此,必须使用经验公式。目前,大多数经验公式都是基于分子力学或牛顿力学。第二个是蛋白质的构象空间,这是一个天文数字。具有数百个氨基酸的蛋白质的可能构象数量估计约为10的300次方。尽管构象搜索算法以及计算能力和存储空间方面取得了很大进展,但从头建模仍然仅适用于氨基酸残基数在10到80之间的小蛋白质。
(3)基于机器学习的建模
基于 ML 的建模是一种利用 ML 算法和已知蛋白质结构来预测目标蛋白质结构的策略。尽
刘长杰
管有许多ML算法,但最值得注意的是深度学习。目前基于深度学习的建模方法有很多,其中AlphaFold、RoTTAFold、ESMFold(ESMFold还提供了广泛的蛋白质结构预测数据库,其中包括6.17亿个宏基因组蛋白质结构)和Chowdhury等人的语言模型是最著名的。与同源建模和从头建模相比,基于深度学习的方法是一种数据驱动方法,是最新的新兴方法。
后开头的成语
AF2的原理和架构以及AF2成功的原因
AF2是DeepMind最先进的蛋白质结构预测方法。它的原理基于最先进的深度学习算法以及进化中蛋白质结构的守恒。它使用一个新的端到端深度神经网络,该网络被训练为通过利用同源蛋白质和多序列比对的信息从氨基酸序列生成蛋白质结构。
在AF2中,使用了最近开发的一些新的DL算法,其中基于注意力机制的Transformer在提高AF2的性能方面起着关键作用。Transformer是一种新兴的深度神经网络,它应用自我注意机制来获取内在特征,在AI中显示出广泛的应用潜力。
进化中蛋白质结构的守恒是AF2背后的生物学原理。蛋白质在进化中通常是保守的,进化
大多是中性的,这意味着大多数突变不会影响蛋白质功能。更重要的是,蛋白质结构比其氨基酸序列更保守。通常,例如,对于远距离物种之间变化80%的序列,3D结构可能几乎保持不变。对齐位置的保持通常意味着它对蛋白质折叠或功能的重要性。蛋白质的两个氨基酸残基的共同进化通常意味着这些氨基酸之间的相互作用。该信息已被用作AF3中2D结构预测的基础。
AF2采用的结构与以前的DL模型完全不同。如图2所示,AF2的流程包括三个模块。
第一个是输入模块
给定一个氨基酸序列,AF2在序列数据库中找到其同系物,并通过比对输入序列及其同系物序列来进行MSA。AF2还检查蛋白质结构数据库中是否有任何同系物具有可用的3D结构,并在氨基酸之间构建成对距离矩阵。然后 AF2 生成 MSA 表示和对表示。应该注意的是,虽然AF2和同源建模都使用MSA,但AF2从MSA中提取并利用协同进化信息,但同源性建模却没有。直观地,当两个残基(A和B)在折叠结构中在空间上彼此靠近时,残基A的突变可能会引起残基B突变的选择性压力。这种共同进化的信息在 MSA 中检测到已被用于辅助 AF2 中的蛋白质结构预测。
值得一提的是,AF2使用了许多高质量的蛋白质序列数据库,包括Uniref90,Uniclust30,MGnify和BFD(Big Fantastic Databa)。AF2还利用了几种有效的搜索算法,包括JackHMMER和 HHBlits用于基因搜索,以及 HHSearch用于模板搜索。
第二个是Evoformer模块
Evoformer模块很可能是一个编码器。在本模块中,AF2 从第一个模块获取输入(MSA 表示和对表示),并将它们传递到深度学习模块(称为 Evoformer)。Evoformer 生成经过处理的 MSA 表示和对表示。使用 Evoformer 模块的主要好处是它们能够在 MSA 表示和配对表示之间切换信息:随着成对信息的改进,可以重新解释 MSA 信息,并且以类似的方式,随着 MSA 信息的重新解释,成对信息可以进一步改进。
Evoformer 包含 48 个块,权重不共享。每个块有两个输入:MSA 表示和对表示。每个 Evoformer 模块的输出是更新的 MSA 表示和更新的对表示。MSA 表示和对表示由多个层处理。还使用了 Dropout 方法,该方法通常用于缓解过度拟合的问题。
每个 Evoformer 块(图2b)包含两个基于Transformer的层的路径和两个路径之间的两个“
通信通道”。基于Transformer的层的第一个路径作用于MSA。它通过大型蛋白质符号矩阵计算注意力。为了降低计算成本,MSA 注意力被分解为逐行门控自我注意和按列门控自我注意组件。逐行门控自我注意机制允许网络识别哪些氨基酸对更相关,为氨基酸对构建注意力权重。它还结合了来自输入对表示的信息,并且该信息可以被视为一个额外的项。列式门控自我注意允许网络确定哪些序列信息量更大,使属于同一目标氨基酸的组分能够处理信息交换。在逐行门控自我注意和按列门控自我注意步骤之后,MSA 通路具有 MSA 过渡层,其中包括 2 层 MLP。这个技巧增强了注意力机制,并允许它精确定位相互作用的氨基酸对。
基于Transformer的层的第二条途径作用于对表示。该网络的主要特征是注意力是根据残基三角形排列的,这是基于一个直接的原理,即在一个三角形中,任何两条边都可以影响第三条边。这里的直觉是强制执行三角形等价方差。如图2b所示。前两轮更新为三角乘法更新,基于非注意力方法。每个“传出”和“传入”边从包含该边的所有三角形的另外两条边获得更新。后两轮更新是三角形的自我关注。他们更新了 Evoformer 块中的对表示。还涉及两个版本:“起始节点”版本和“结束节点”版本。“起始节点”版本基于具有相同起始节点的所有边更新边。“结束节点”版本的操作方式类似,但它适用于共享相同结束节点的边。成对表
示路径还包含三角形自我注意层之后的过渡层,其工作方式与上面介绍的过渡层相同。
第三个是结构模块
这个模块可能是解码器。结构模块还使用Transformer神经网络。它实现了从蛋白质结构的抽象表示到目标蛋白质的3D原子坐标的过渡。结构模块将每个残基作为一个单独的对象,并预测放置它所需的旋转和平移。
AF2的工作原理和架构
a AF2的总体结构。AF2 的管道包含三个模块。第一个是输入模块,它以氨基酸序列作为输入,并生成MSA表示和对表示。第二个是 Evoformer 模块,它从第一个模块获取 MSA 表示和对表示,并将它们传递到深度学习模块 Evoformer。第三个是结构模块,实现了从蛋白质结构的抽象表示到目标蛋白质的三维原子坐标的过渡。
b Evoformer中一个区块的组成部分。Evoformer 包含 3 个块,权重不共享。MSA 表示形式和对表示形式通过每个块更新。
三七作用
c 结构模块中块的组成部分。结构模块包含 48 个具有共享权重的块。单个表示和骨架通过结构模块的每个块进行更新最后,AF2采用三次回收机制,对训练和测试进行迭代细化处理。回收机制已在计算机视觉中广泛使用,它允许网络更深入并处理输入特征的多个版本,而不会显着增加参数数量或训练时间。在每次回收中,模型将以前的输出合并为附加输入。AF2 从结构模块中回收预测的主链原子坐标、输出对表示和来自 Evoformer 的第一行 MSA 表示。
与以前的版本相比,AF2 实现了最佳性能。虽然我们已经介绍了AF2的原理和架构,但AF2成功的秘诀并没有明确指出。在这里,我们提出了我们对导致AF2成功的最关键点的分析。
从技术角度来看,使用的精细算法是主要原因,这是无可争辩的。其中最重要的是使用基于注意力机制的Transformer。在AF2中,使用了几种类型的注意力机制,每种机制都专注于模型要学习的特定方面。在编码器部分,AF2使用两组相互交织的Transformer:一组主要在原始MSA上运行,另一组主要操作成对信息,通过它们之间的特定信息通道相互更新。MSA逐行门控自我注意允许模型捕获氨基酸序列和蛋白质结构中的长期依赖性。