以152种不同的异二聚体蛋白质复合物为基准,对瞬时蛋白质复合物进行端到端建模的准确性进行系统评估,这些测试用例包含了三种对接难度级别和3类相互作用类别,包括含酶复合物、抗体-抗原复合物以TCR-pMHC复合物,同时测试了AlphaFold的多种实现和参数的准确性。
由AlphaFold生成排名靠前的预测,43%的案例是near-native的模型(对预测的相互作用准确度进行中等或高准确度评估),大大超出了unbound 蛋白蛋白对接的性能(预测的top-ranked模型,near-native的成功率为9%),然而对抗体-抗原复合物的AlphaFold建模是不成功的。
作者还确定了与缺乏AlphaFold成功相关序列和结构特征,并且研究了多序列比对对输入的影响。
使用一组最近发布的抗体-抗原结构对多聚体优化版本的AlphaFold(AlphaFold-Multimer)进行了基准测试,证实了抗体-抗原复合物的成功率较低(成功率为11%)。
发现T细胞受体-抗原复合物同样没有被该算法准确建模,这表明自适应免疫识别对当前的AlphaFold算法和模型提出了挑战。
研究表明,端到端深度学习可以准确的模拟许多瞬态蛋白质复合物,并突出未来发展的改进领域,以可靠的模拟任何感兴趣的蛋白质-蛋白质相互作用。
1 AF2对蛋白-蛋白复合物预测准确率高
AlphaFold、ColabFold和ZDOCK成功预测瞬时蛋白-蛋白复合物结构。使用152个复合物测试数据用AlphaFold和ColaFold进行端到端的建模,同时使用unbound蛋白质结构输入ZDOCK,生成对接模型。使用CAPRI标准对所有模型集进行near-native预测的评估,以获得高、中和可接受的准确度。考虑预测前五的模型成功率。
AlphaFold能够为149个测试用例生成大约一半(51%)具有可接受或更高准确度的模型,并且对其中许多案例,具有生成中等或者更高准确度(43%)或更高精度(21%)的模型。
ColabFold成功率与AlphaFold的成功率接近,表明不同的序列数据库和MSA程序不会降低或以其他方式改变AlphaFold深度学习模型生成near-native复合物模型的能力。
ZDOCK的刚体全局对接成功率远低于AlphaFold和ColabFold,特别是对于中/高精度模型(13%可接受或更高的精度,9%的中等或更高精度,1%的top 模型的高精度成功率),尽管ZDOCK的一部分案例是成功的,而AlphaFold或ColabFold没有成功预测。
2 复合物类别和蛋白质来源不影响AF2准确率
图(a) AlphaFold和ZDOCK的预测成功率,按对接难度分组,基于BM5.5、20、23定义的结合构象变化案例分为"刚性“、"中等''、“难"对接难度级别。考虑了来自AlphaFold的所有5个模型和前5个ZDOCK模型。
正如预期的那样,在基于unboud和bound结构之间的绑定构象变化定义的测试用例难度上,评估的AlphaFold性能,不同难度的测试用例并没有显著影响AlphaFold的成功。
图(b) 按复合物类别(Complex category)分组的AlphaFold和ZDOCK的预测成功率。为了评估成功率,考虑了来自AlphaFold的所有前5模型和前25个ZDOCK模型。
图(c) 蛋白质来源(Protein origin)生物分组的AlphaFold和ZDOCK的预测成功率。根据复合物结构中亚基蛋白的来源,每种case都归类为"single, eukaryotic, 单核生物的蛋白质","sinlge, bacterial, SB表示来自同一细菌有机体的蛋白质","multiple, eukaryotic,ME表示来自不同真核生物蛋白质“,“multiple, mix,MM表示来自混合来源的蛋白质"。
图(b)图(c),抗体-抗原复合物没有成功生成模型,而考虑其他复合物类别都显示出大致相称的AlphaFold性能水平。
AlphaFold在预测与来自真核生物或细菌生物的蛋白质复合物方面成功率没有显著差异,而当复合物中的两种蛋白质来自不同的生物体时,总体成功率略有下降。
无论单源生物还是多源生物类型如何,高质量模型的成功率大致相同(~25%)。
3 AF2 抗体-抗原复合物预测较差
在BM5.5中的11种抗体-抗原复合物缺乏任何成功的结构预测,作者又组装了一组另外20种具有已知结构的非冗余抗体-抗原复合物来评估AlphaFold准确性。结果绝大多数复合物AlphaFlod依然没有准确的预测。
4 AF2-Multimer用于抗体-抗原建模较差
作者测试了7种抗体-抗原复合物,还测试了来自Ghan等人的49个非抗体复合物结构。
上表突出高亮显示标准AlphaFold-Multimer(使用MSA输入)在非抗体成功为76%(13/17,为76%,排名第一属于中/高精度模型),而抗体-抗原成功率仅为29%(2/7,为29%,排名第一属于中/高精度模型)。
鉴于上表有限的抗体-抗原病例数量,作者又组装了一组更大的100个最近发布的抗体-抗原复合物结构,用于AlphaFold-Multimer进行基准测试。
发现这组成功率还是很低,选择每个案例中预测排名第一的model,只有6%的案例成功预测(属于中/高准确度),如果对每个案例选择预测排名前5最好model,11%的案例成功预测(属于中/高准确度)。
5 AF2-Multimer用于T细胞受体复合物的建模较差
对T细胞受体-肽-主要组织相容性复合物(TCR-pMHC)结构进行建模,以进一步描述其自适应免疫识别的建模准确性。
大多数TCR在pMHC上共享一个通用的结合位点和方向,它们的pMHC识别模式的多样性,由灵活和可变的互补决定区域loops介导,对预测建模方法构成挑战。
作者组装了一组14个具有已知结构I类TCR-pMHC复合物,AlphaFold-Multimer对这些复合物进行建模显示,14个复合物中仅有2个(14%)成功。
这突出了另一类对当前AlphaFold-Mulimer实现具有挑战性的复合物,部分原因可能是界面中的协同进化信号有限。
虽然有证据表明 TCR 基因与 MHC 基因共同进化以促进 TCR-pMHC 相互作用,但TCR-pMHC 复合物中的关键肽-MHC 和 TCR-肽界面不受协同进化的指导,结合肽的准确建模以及正确对接的 TCR 在折叠对接场景中提出了明显的挑战。
参考文献
Benchmarking AlphaFold for protein complex modeling reveals accuracy determinants.
留言与评论(共有 0 条评论) “” |