日期:
来源:集智俱乐部收集编辑:集智编辑部
关键词:蛋白质工程,机器学习,蛋白质适应度景观,持久谱理论
论文题目:Persistent spectral theory-guided protein engineering论文来源:Nature Computational Science论文链接:https://www.nature.com/articles/s43588-022-00394-y
蛋白质工程通过扫描巨大的突变空间来迭代优化蛋白质的适应度,但这受到实验设备能力的限制,现在各种机器学习模型已经大大加快了蛋白质工程的速度。三维蛋白质结构有望取得进一步的进展,但其几何复杂性阻碍了其在深度突变筛选中的应用。持久同调(persistent homology)是一种用于降低蛋白质结构复杂性的代数拓扑工具,它在过滤给定数据时无法捕获同伦形状的演化。近日发表于 Nature Computational Science 的这篇论文介绍了一个基于拓扑的蛋白质适应度(Topology-offered Protein Fitness,TopFit)框架来补充蛋白质序列和结构嵌入。TopFit采用集成回归策略,融合了持久谱理论(persistent spectral theory,一种新的拓扑拉普拉斯理论)和两个辅助序列嵌入,以捕获突变诱导的拓扑不变量、形状演化和蛋白质适应度景观中的序列差异。TopFit的性能由34个基准数据集(128,634个变量)评估,涉及各种各样的蛋白质结构获取方式和训练集大小变化。图3 适应度的单次嵌入预测,基于Spearman相关测量。
集智斑图顶刊论文速递栏目上线以来,持续收录来自Nature、Science等顶刊的最新论文,追踪复杂系统、网络科学、计算社会科学等领域的前沿进展。现在正式推出订阅功能,每周通过微信服务号「我的集智」推送论文信息。扫描下方二维码即可一键订阅:
推荐阅读