服务粉丝

我们一直在努力
当前位置:首页 > 财经 >

ICLR 2023 | 初探AI拼图模型预测蛋白质复合物结构

日期: 来源:机器之心收集编辑:
机器之心专栏
作者:ByteDance Research团队
分子表示学习在 AI 辅助药物发现研究中起着至关重要的作用。在传统药物研发中,常用的分子对接模型需要进行大量的构型采样与优化,并筛选出较为稳定的结构。这类策略效率较低,难以应用于高通量的蛋白质对接任务。本文介绍的基于分子表面黎曼流形的深度学习表示方法 (Harmonic Molecular Representation, HMR) 实现了更准确、高效的蛋白质对接模型开发。HMR 用二维黎曼流形建模分子表面,结合调合分析技术与神经网络实现流形上几何、化学信号的多尺度传播和两个蛋白质表面之间的匹配度比较,进而利用「蛋白质拼图」的逻辑实现蛋白质分子刚性对接 (rigid protein docking) 。实验表明,基于 HMR 的分子对接模型比当前深度学习 SOTA [1] 有更高的准确性,并且较传统分子对接方法提速 100 倍以上。相关论文已被收录于 ICLR 2023。


蛋白质之间的相互作用是实现其生物活性的重要基础,例如人体可以产生抗体蛋白(上图绿色部分)与入侵的病毒(紫色部分)结合从而抑制疾病。生物制药研究通过分析生物分子之间相互作用的物理、化学机制,进一步设计出可以与一些特定靶点相结合的新型药物分子(如研发新冠抗体)。在微观尺度下,蛋白质之间的相互结合主要由分子间作用力决定,例如氢键、静电力、疏水作用等。

在传统药物研发中,分子对接技术 (molecular docking) 通过物理方法建模这些微观作用来模拟计算真实生物体内两个分子相互作用的稳定结构。这些传统的分子对接模型需要进行大量的构型采样及优化,并筛选出其中较为稳定的结构作为预测结果。这种基于采样和筛选的策略导致传统方法效率较低,难以应用于高通量的蛋白质对接任务(例如从 1 万个蛋白中筛选出最有可能与病毒表面结合的 10 个来进行湿实验测试)。研发准确且高效的分子对接模型可以帮助快速筛选出适合进行湿实验测试的蛋白质分子,从而提高新药研发的效率。

为了开发更加准确且高效的蛋白质对接模型,字节跳动 ByteDance Research 团队设计了一套基于分子表面的几何深度学习方案。该方案的核心思想是训练 AI 模型从拼图的角度去理解蛋白质之间的相互作用,并按照拼图的思路实现蛋白质复合物构型预测


  • 论文地址:https://openreview.net/pdf?id=ySCL-NG_I3
  • 代码地址:https://github.com/GeomMolDesign/HMR


具体来说,如果两个蛋白质可以结合,那么其结合区域必须同时满足化学性质匹配和几何结构互补这两个条件(下图)。因此直观上可以将其类比为一个拼图问题:只要能够在蛋白质表面分别找到两块形状和纹理都能匹配的「拼图」,那么就可以将这两个蛋白质拼在一起形成稳定的蛋白质复合物。

图:能够结合的蛋白质分子必须同时满足化学性质匹配和几何结构互补这两个条件,类似于拼图问题。

基于上述假设,团队提出了一种基于分子表面黎曼流形的深度学习表示方法 (Harmonic Molecular Representation, HMR) :用二维黎曼流形建模分子表面,结合调合分析技术与神经网络实现流形上几何、化学信号的多尺度传播和两个蛋白质表面之间的匹配度比较,进而利用「蛋白质拼图」的逻辑实现蛋白质分子刚性对接 (rigid protein docking) 。直观上,神经网络模型需要从大量蛋白质复合物的结构(训练集)中学习这类拼图的几何、化学规律,从而可以去预测没有见过的(测试集)蛋白质复合物结构。

实验表明,基于 HMR 的分子对接模型比当前深度学习 SOTA [1] 有更高的准确性,并且较传统分子对接方法提速 100 倍以上。接下来的 3 个章节将分别介绍黎曼流形分子表示、分子表面几何深度学习和蛋白质拼图模型的主要思想和技术概要。

§1 基于黎曼流形的分子表示

图:抗体蛋白 (PDB ID: 6W41) 表面流形在不同分辨率下的表示。颜色代表分子表面静电势能函数,蓝色为负电荷区域。

生物分子的表面通常是指该分子在溶液中与溶剂(例如水分子)形成的界面。我们可以将这样的界面表示为一个三维空间中的二维黎曼流形 (Riemannian manifold)。上图展示了一个抗体蛋白在不同分辨率下的表面流形结构,流形上的颜色对应分子表面的静电势能函数分布。换句话说,流形的结构勾勒了分子的形状,而流形上分布的函数则可以表示分子表面的化学性质。因此,利用黎曼流形可以统一地表示分子的几何结构和化学性质,从而整合分子信息并帮助 AI 模型更好地学习蛋白质的结构 - 活性关系。

在黎曼流形的表示下,每个分子都有一套独特的「形状基因」(Shape-DNA) 。这些形状基因被定义为分子表面流形的拉普拉斯-贝尔特拉米算子 (Laplace-Beltrami Operator, LBO) 的本征值的集合 {

相关阅读

  • 颠覆蛋白结构预测的AlphaFold 2,改变了科学史

  • 新智元报道 编辑:Britta【新智元导读】现在,由DeepMind开发的蛋白质预测工具AlphaFold 2,不仅已经被超过100万名研究人员用于自己的研究,甚至直接「改变了」科学史。牛津大学
  • 大V易伟被罚没亿元,非法荐股还能走多远?

  • 图片来源:图虫创意实习记者 | 章宇璠近日,证监会公布处罚书显示,上海春山新棠投资管理有限公司法定代表人易伟存在操纵证券价格、非法从事证券投资咨询的违法情况,共计被罚没款
  • 每周分子 | Molecule of the Week

  • 点击上方, 订阅话题 ,不错过每周分子!每周分子:木聚糖Molecule of the Week: Xylan纤维素、半纤维素和木质素是形成植物木质纤维素纤维的三种分子。纤维素是一种由D-葡萄糖单元
  • 专题征稿 | Giant:高精密分子化学

  • 将我们设置为星标账号,不错过最新学术资讯!专题介绍 与结构精确的生物大分子不同,合成高分子通常存在如分子量分布、构造缺陷等不均一。在过去的百年里,人们从未停止对组成、序
  • 打破教科书定论!细胞不喜欢多线程任务

  • 教科书告诉我们,在细胞分裂过程中,新DNA的生产在S期达到峰值,而其他大分子的产生,如蛋白质、脂质和多糖,则或多或少地保持在同一水平。现在格罗宁根大学的分子生物学家在Matthias

热门文章

  • “复活”半年后 京东拍拍二手杀入公益事业

  • 京东拍拍二手“复活”半年后,杀入公益事业,试图让企业捐的赠品、家庭闲置品变成实实在在的“爱心”。 把“闲置品”变爱心 6月12日,“益心一益·守护梦想每一步”2018年四

最新文章

  • ICLR 2023 | 初探AI拼图模型预测蛋白质复合物结构

  • 机器之心专栏作者:ByteDance Research团队分子表示学习在 AI 辅助药物发现研究中起着至关重要的作用。在传统药物研发中,常用的分子对接模型需要进行大量的构型采样与优化,并筛
  • 时隔6年再现身!网友:太可爱了吧

  • 贺兰山鼠兔。(聂洧 摄)2月28日宁夏贺兰山国家森林公园工作人员聂洧在公园内拍摄到世界极危物种贺兰山鼠兔这是时隔六年后在该公园再一次记录到该物种据《中国生物多样性红色名