人工智能在蛋白质研究领域曾有一项重大突破技术——即由Deep Mind公司开发的AlphaFold。近日,计算生物学家Jue Wang的团队开发出了一款全新的人工智能(AI)软件,功能与AlphaFold全然不同。
2022年7月22日,《科学》(Science)报道了这款软件RoseTTAFold,新软件的功能博得了业内专家的关注。
据新闻消息,这款软件能够“绘制”或“幻想”出自然界中尚不存在的蛋白质结构,这是继AlphaFold之后蛋白质研究中的又一个里程碑。
RoseTTAFold,AlphaFold,一个是用AI来从头合成蛋白质,一个是预测蛋白质折叠结构,各有千秋。它们会给蛋白质领域的研究带来什么样的变化?
撰文 | 徐诗露
责编 | 李晓韦
图片来源:美国华盛顿大学西雅图分校蛋白质研究所
自从AI问世以来,众多科学家们就加入了利用它来进行蛋白质研究的赛道。2021年问世的AlphaFold和RoseTTAFold都是赛道上的当红明星,但AlphaFold主要是利用已知基因序列来预测蛋白质结构,而近期出现的这款软件,让AI能够“设计”出全新的蛋白质。
新闻截图
针对这项研究,密歇根大学安娜堡分校的蛋白质设计者张洋评价道:“这是对人工智能的完美利用。”
研究人员开发的这个软件已经目前创造了一些原始化合物,它们或可以用于工业反应、癌症治疗,甚至是用于开发预防呼吸道合胞病毒(RSV)的候选疫苗。
由AI带来的突破
一石激起千层浪,而这颗石头是《科学》上一篇名为:“Scaffolding protein functional sites using deep learning”的论文。
论文截图
这篇论文的作者——计算生物学家Jue Wang和他的团队基于RoseTTAFold和AlphaFold等现有软件,开发出了一款全新的AI软件。
此前,Jue Wang的导师威斯康星大学蛋白质设计师David Baker领导的团队曾使用一款名为Rosetta的软件来设计潜在的蛋白质药物,这款软件可以用来预测蛋白质结构,但它并不不涉及人工智能。
其原理是怎样的呢?研究人员首先向软件输入已知的蛋白质片段(称为“结合基序”),然后让Rosetta扫描他们之前设计的蛋白质结构数据库,并找到一种“现有的”可能符合需求的蛋白质骨架,然后将结合基序和扫描所得的蛋白质骨架组合在一起,并做出调整和改进。
这种传统的方法能够帮助蛋白质药物的研发,但是计算量非常大,花费的时间也比较长。且对于科研人员而言,他们只能被动地期待能筛选出一个合适的蛋白质骨架,如果这一步无法成功,研究就会遇到瓶颈而停下。
最近,Jue Wang团队新发布的这款软件改变了这一困境,他们利用深度学习方法对RoseTTAFold进行训练,除了标准的固定序列结构预任务之外,他们还用固定骨架序列的设计方法对RoseTTAFold进行了进一步的训练。通过训练之后,他们发现RoseTTAFold可以恢复小的、连续区域的氨基酸序列空缺。
受到这一结果的鼓舞,Jue Wang团队训练了一个模型,在给定周围蛋白质的情况下,对确实序列和结构的片段进行修复,并完成了序列设计和结构预测。它可以通过两种方法来设计自己的蛋白质。
第一种方法是“constrained hallucination”(受限幻想),他们给软件指定一个蛋白质目标(如与金属结合),使它们的预测结构包含所需的功能位点。
第二种方法是“inpainting”(修补),他们给AI一个功能性位点,以此为起点对蛋白质序列和结构进行补充。这种方法看起来就像是,你在手机上输入几个字母后,输入法会自动给你补全一个单词。
这两种方法是互补的,受限幻想法可以为极少的功能位点生成不同的蛋白质骨架,但由于它需要通过神经网络向前和向后传播来计算每个优化算法的梯度,计算成本很高。而修补法往往需要更大的输入数据,但计算量小得多,如过在研究中能提供更多输入信息,修补法比受限幻想法性能更好。
与现在当红明星AlphaFold相比,二者都是预测蛋白质结构,那么这个软件跟AlphaFold有什么区别呢?
与AlphaFold全然不同的功能
简单来说,预测蛋白质折叠方式是一回事,从头开始设计新的蛋白质则与之完全不同,更具挑战。
我们先来回顾一下AlphaFold的诞生。
2021年7月,英国Deep Mind公司宣布,通过先进的建模程序,可以预测蛋白质和一些分子复合物的精确三维原子结构,并将这些结构放入公开的数据库免费供全球科研人员使用。
AlphaFold完美的运用了机器学习算法,它配置了深度学习神经网络,并且接受了蛋白质数据库(PDB)和其他数据库中数十万个实验确定的蛋白质结构和序列的训练。
据Deep Mind公司报告显示,其人工智能程序Alpha Fold预测出98.5%的人类蛋白质结构,有助于深入理解一些关键生物学信息,从而更好开展药物研发。
AlphaFold: How AI is Used for Scientific Discovery丨图源:usaii.org
而Jue Wang团队设计的软件和Deep Mind公司的AlphaFold的关键区别在于:AlphaFold是根据输入的基因序列来预测蛋白质的折叠方式,而Jue Wang团队设计的软件是根据部分蛋白质结构来设计其空缺部分。简单来说,AlphaFold类似于让你给已知的几个单词排序,使其符合语法习惯;而Jue Wang团队设计的这个软件则是给你一个单词,让你给它造句。
总之,这两款软件的功能全然不同,都能在蛋白质研究领域发光发热。
科研加速,未来可期
近年来,AI技术给蛋白质预测这一领域带来了突破性进展,这让蛋白质研究的进程迈进了关键的一步,对此,业内专家是怎么看的呢?
中国科学院院士、结构生物学家、西湖大学校长施一公认为,AlphaFold代表了目前全球最领先的人工智能蛋白机构预测系统,它对蛋白结构的精准预测,是人工智能对科学领域最大的一次贡献,也是人类在21世纪取得的最重要的科学突破之一。
中国科学院院士、结构生物学家、西湖大学校长施一公
“AI预测蛋白质结构全球第一人”许锦波在受访时表示,一直以来,蛋白质结构预测领域都是鲜有人问津,直到“人工智能预测蛋白质结构”作为一项突破性研究成果后,该领域才引起了更多人的关注。
AI预测蛋白质虽然依然无法代替实验,但无疑给蛋白质研究领域带来了新的血液。AlphaFold出现一年后的今天,就出现了Jue Wang团队设计的这款软件,看似迅速的突破实际上并非易事。
值得一提的是,AI在蛋白质研究领域的潜能不止于此,科学家们也在这个赛道上不断探索。这款新的软件将如何推进蛋白质领域的研究,AI技术还会带给我们什么样的惊喜呢?让我们拭目以待。
参考文献
[1] Science里程碑:AI成功设计自然界中尚不存在的蛋白,有望变革抗癌药、疫苗研发.医药魔方.
[2] Dreaming up new proteins, AI churns out possible medicines and vaccines.Science.https://www.science.org/content/article/dreaming-new-proteins-ai-churns-out-possible-medicines-and-vaccines
[3] Scaffolding protein functional sites using deep learning.Science.https://www.science.org/doi/10.1126/science.abn2100
[4] 专访AI预测蛋白质结构全球第一人”许锦波:预测蛋白质结构二十余载.这条路如何从冷清到热闹.扬子晚报.https://www.yangtse.com/zncontent/2161838.html
出品:科普中国-星空计划
特 别 提 示
1. 进入『返朴』微信公众号底部菜单“精品专栏“,可查阅不同主题系列科普文章。
2. 『返朴』提供按月检索文章功能。关注公众号,回复四位数组成的年份+月份,如“1903”,可获取2019年3月的文章索引,以此类推。
版权说明:欢迎个人转发,任何形式的媒体或机构未经授权,不得转载和摘编。转载授权请在「返朴」微信公众号内联系后台。
留言与评论(共有 0 条评论) “” |