日期:
来源:机器之心收集编辑:
分子表示学习在 AI 辅助药物发现研究中起着至关重要的作用。在传统药物研发中,常用的分子对接模型需要进行大量的构型采样与优化,并筛选出较为稳定的结构。这类策略效率较低,难以应用于高通量的蛋白质对接任务。本文介绍的基于分子表面黎曼流形的深度学习表示方法 (Harmonic Molecular Representation, HMR) 实现了更准确、高效的蛋白质对接模型开发。HMR 用二维黎曼流形建模分子表面,结合调合分析技术与神经网络实现流形上几何、化学信号的多尺度传播和两个蛋白质表面之间的匹配度比较,进而利用「蛋白质拼图」的逻辑实现蛋白质分子刚性对接 (rigid protein docking) 。实验表明,基于 HMR 的分子对接模型比当前深度学习 SOTA [1] 有更高的准确性,并且较传统分子对接方法提速 100 倍以上。相关论文已被收录于 ICLR 2023。
蛋白质之间的相互作用是实现其生物活性的重要基础,例如人体可以产生抗体蛋白(上图绿色部分)与入侵的病毒(紫色部分)结合从而抑制疾病。生物制药研究通过分析生物分子之间相互作用的物理、化学机制,进一步设计出可以与一些特定靶点相结合的新型药物分子(如研发新冠抗体)。在微观尺度下,蛋白质之间的相互结合主要由分子间作用力决定,例如氢键、静电力、疏水作用等。在传统药物研发中,分子对接技术 (molecular docking) 通过物理方法建模这些微观作用来模拟计算真实生物体内两个分子相互作用的稳定结构。这些传统的分子对接模型需要进行大量的构型采样及优化,并筛选出其中较为稳定的结构作为预测结果。这种基于采样和筛选的策略导致传统方法效率较低,难以应用于高通量的蛋白质对接任务(例如从 1 万个蛋白中筛选出最有可能与病毒表面结合的 10 个来进行湿实验测试)。研发准确且高效的分子对接模型可以帮助快速筛选出适合进行湿实验测试的蛋白质分子,从而提高新药研发的效率。为了开发更加准确且高效的蛋白质对接模型,字节跳动 ByteDance Research 团队设计了一套基于分子表面的几何深度学习方案。该方案的核心思想是训练 AI 模型从拼图的角度去理解蛋白质之间的相互作用,并按照拼图的思路实现蛋白质复合物构型预测。- 论文地址:https://openreview.net/pdf?id=ySCL-NG_I3
- 代码地址:https://github.com/GeomMolDesign/HMR
具体来说,如果两个蛋白质可以结合,那么其结合区域必须同时满足化学性质匹配和几何结构互补这两个条件(下图)。因此直观上可以将其类比为一个拼图问题:只要能够在蛋白质表面分别找到两块形状和纹理都能匹配的「拼图」,那么就可以将这两个蛋白质拼在一起形成稳定的蛋白质复合物。图:能够结合的蛋白质分子必须同时满足化学性质匹配和几何结构互补这两个条件,类似于拼图问题。基于上述假设,团队提出了一种基于分子表面黎曼流形的深度学习表示方法 (Harmonic Molecular Representation, HMR) :用二维黎曼流形建模分子表面,结合调合分析技术与神经网络实现流形上几何、化学信号的多尺度传播和两个蛋白质表面之间的匹配度比较,进而利用「蛋白质拼图」的逻辑实现蛋白质分子刚性对接 (rigid protein docking) 。直观上,神经网络模型需要从大量蛋白质复合物的结构(训练集)中学习这类拼图的几何、化学规律,从而可以去预测没有见过的(测试集)蛋白质复合物结构。实验表明,基于 HMR 的分子对接模型比当前深度学习 SOTA [1] 有更高的准确性,并且较传统分子对接方法提速 100 倍以上。接下来的 3 个章节将分别介绍黎曼流形分子表示、分子表面几何深度学习和蛋白质拼图模型的主要思想和技术概要。图:抗体蛋白 (PDB ID: 6W41) 表面流形在不同分辨率下的表示。颜色代表分子表面静电势能函数,蓝色为负电荷区域。生物分子的表面通常是指该分子在溶液中与溶剂(例如水分子)形成的界面。我们可以将这样的界面表示为一个三维空间中的二维黎曼流形 (Riemannian manifold)。上图展示了一个抗体蛋白在不同分辨率下的表面流形结构,流形上的颜色对应分子表面的静电势能函数分布。换句话说,流形的结构勾勒了分子的形状,而流形上分布的函数则可以表示分子表面的化学性质。因此,利用黎曼流形可以统一地表示分子的几何结构和化学性质,从而整合分子信息并帮助 AI 模型更好地学习蛋白质的结构 - 活性关系。在黎曼流形的表示下,每个分子都有一套独特的「形状基因」(Shape-DNA) 。这些形状基因被定义为分子表面流形的拉普拉斯-贝尔特拉米算子 (Laplace-Beltrami Operator, LBO) 的本征值的集合 {